論文の概要: SCALE: Scaling up the Complexity for Advanced Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2306.09237v2
- Date: Fri, 1 Sep 2023 18:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 04:48:06.264993
- Title: SCALE: Scaling up the Complexity for Advanced Language Model Evaluation
- Title(参考訳): SCALE: 高度な言語モデル評価のための複雑さのスケールアップ
- Authors: Vishvaksenan Rasiah, Ronja Stern, Veton Matoshi, Matthias St\"urmer,
Ilias Chalkidis, Daniel E. Ho, Joel Niklaus
- Abstract要約: 現在のLarge Language Models (LLM) に課題をもたらす新しい NLP ベンチマークを導入する。
我々のベンチマークはスイスの法体系の様々な法的NLPデータセットで構成されている。
本研究の一環として,ベンチマークで事前学習した複数言語モデルを評価し,基準点として強いベースラインを確立する。
- 参考スコア(独自算出の注目度): 19.339580164451256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent strides in Large Language Models (LLMs) have saturated many NLP
benchmarks (even professional domain-specific ones), emphasizing the need for
novel, more challenging novel ones to properly assess LLM capabilities. In this
paper, we introduce a novel NLP benchmark that poses challenges to current LLMs
across four key dimensions: processing long documents (up to 50K tokens),
utilizing domain specific knowledge (embodied in legal texts), multilingual
understanding (covering five languages), and multitasking (comprising legal
document to document Information Retrieval, Court View Generation, Leading
Decision Summarization, Citation Extraction, and eight challenging Text
Classification tasks). Our benchmark comprises diverse legal NLP datasets from
the Swiss legal system, allowing for a comprehensive study of the underlying
Non-English, inherently multilingual, federal legal system. Despite recent
advances, efficiently processing long documents for intense review/analysis
tasks remains an open challenge for language models. Also, comprehensive,
domain-specific benchmarks requiring high expertise to develop are rare, as are
multilingual benchmarks. This scarcity underscores our contribution's value,
considering most public models are trained predominantly on English corpora,
while other languages remain understudied, particularly for practical
domain-specific NLP tasks. Our benchmark allows for testing and advancing the
state-of-the-art LLMs. As part of our study, we evaluate several pre-trained
multilingual language models on our benchmark to establish strong baselines as
a point of reference. Despite the large size of our datasets (tens to hundreds
of thousands of examples), existing publicly available models struggle with
most tasks, even after in-domain pretraining. We publish all resources
(benchmark suite, pre-trained models, code) under a fully permissive open CC
BY-SA license.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、多くのNLPベンチマーク(プロのドメイン固有のベンチマークでさえ)を飽和させ、LLM能力を適切に評価するための新しい、より困難な新しいベンチマークの必要性を強調している。
本稿では,長文(最大50Kトークン)の処理,ドメイン固有知識(法的テキストに具体化されている)の活用,多言語理解(5言語をカバー),マルチタスク(文書化のための法的文書の構成,情報検索,裁判所ビュー生成,決定決定の要約,引用抽出,および8つの困難なテキスト分類タスク)の4つの重要な側面において,現在のLCMに課題をもたらす新しいNLPベンチマークを提案する。
我々のベンチマークはスイスの法体系からの様々な法的NLPデータセットで構成されており、基礎となる非英語、本質的には多言語、連邦法体系の包括的な研究を可能にする。
最近の進歩にもかかわらず、厳格なレビュー/分析タスクのために長いドキュメントを効率的に処理することは、言語モデルにとってオープンな課題である。
また、高度な専門知識を必要とする包括的なドメイン固有のベンチマークは、多言語ベンチマークと同様にまれである。
この不足は、ほとんどのパブリックモデルが主に英語コーパスに基づいて訓練されているのに対して、他の言語、特に実用的なドメイン固有のnlpタスクについて、私たちの貢献の価値を強調する。
我々のベンチマークは最先端のllmのテストと進歩を可能にする。
本研究の一環として,ベンチマークで事前学習した複数言語モデルを評価し,基準点として強いベースラインを確立する。
データセットの大規模さ(数十万の例に相当)にも関わらず、既存の公開モデルでは、ドメイン内事前トレーニング後も、ほとんどのタスクに苦労しています。
完全に寛容なオープンCC BY-SAライセンスの下で、すべてのリソース(ベンチマークスイート、事前訓練済みモデル、コード)を公開します。
関連論文リスト
- ArabLegalEval: A Multitask Benchmark for Assessing Arabic Legal Knowledge in Large Language Models [0.0]
ArabLegalEvalは、大規模言語モデル(LLM)のアラビア語法的知識を評価するためのベンチマークデータセットである。
MMLUとLegalBenchのデータセットにインスパイアされたArabLegalEvalは、サウジアラビアの法的文書から得られた複数のタスクと、質問を合成する。
本研究の目的は、アラビア語の法的な問題を解くために必要な能力を分析し、最先端のLLMの性能をベンチマークすることである。
論文 参考訳(メタデータ) (2024-08-15T07:09:51Z) - Legal Documents Drafting with Fine-Tuned Pre-Trained Large Language Model [1.3812010983144798]
本稿では,中国語の分節化を伴わずに多数の注釈のない法律文書を活用でき,大規模言語モデルを微調整できることを示す。
また、法的文書草案作成作業も達成でき、同時に情報プライバシーの保護と情報セキュリティ問題の改善も達成できる。
論文 参考訳(メタデータ) (2024-06-06T16:00:20Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset [0.0]
文境界検出(SBD)は自然言語処理の基礎的構成要素の一つである。
我々は6言語で130万以上の注釈文からなる多言語法的データセットをキュレートした。
CRF, BiLSTM-CRF, トランスフォーマーに基づく単言語モデルと多言語モデルの訓練, 試験を行い, 最先端性能を実証した。
論文 参考訳(メタデータ) (2023-05-02T05:52:03Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - LAWDR: Language-Agnostic Weighted Document Representations from
Pre-trained Models [8.745407715423992]
言語間文書表現は、多言語コンテキストにおける言語理解を可能にする。
BERT、XLM、XLM-RoBERTaのような大規模な事前学習言語モデルは、文レベルの下流タスクを微調整することで大きな成功を収めた。
論文 参考訳(メタデータ) (2021-06-07T07:14:00Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。