論文の概要: SCALE: Scaling up the Complexity for Advanced Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2306.09237v2
- Date: Fri, 1 Sep 2023 18:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 04:48:06.264993
- Title: SCALE: Scaling up the Complexity for Advanced Language Model Evaluation
- Title(参考訳): SCALE: 高度な言語モデル評価のための複雑さのスケールアップ
- Authors: Vishvaksenan Rasiah, Ronja Stern, Veton Matoshi, Matthias St\"urmer,
Ilias Chalkidis, Daniel E. Ho, Joel Niklaus
- Abstract要約: 現在のLarge Language Models (LLM) に課題をもたらす新しい NLP ベンチマークを導入する。
我々のベンチマークはスイスの法体系の様々な法的NLPデータセットで構成されている。
本研究の一環として,ベンチマークで事前学習した複数言語モデルを評価し,基準点として強いベースラインを確立する。
- 参考スコア(独自算出の注目度): 19.339580164451256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent strides in Large Language Models (LLMs) have saturated many NLP
benchmarks (even professional domain-specific ones), emphasizing the need for
novel, more challenging novel ones to properly assess LLM capabilities. In this
paper, we introduce a novel NLP benchmark that poses challenges to current LLMs
across four key dimensions: processing long documents (up to 50K tokens),
utilizing domain specific knowledge (embodied in legal texts), multilingual
understanding (covering five languages), and multitasking (comprising legal
document to document Information Retrieval, Court View Generation, Leading
Decision Summarization, Citation Extraction, and eight challenging Text
Classification tasks). Our benchmark comprises diverse legal NLP datasets from
the Swiss legal system, allowing for a comprehensive study of the underlying
Non-English, inherently multilingual, federal legal system. Despite recent
advances, efficiently processing long documents for intense review/analysis
tasks remains an open challenge for language models. Also, comprehensive,
domain-specific benchmarks requiring high expertise to develop are rare, as are
multilingual benchmarks. This scarcity underscores our contribution's value,
considering most public models are trained predominantly on English corpora,
while other languages remain understudied, particularly for practical
domain-specific NLP tasks. Our benchmark allows for testing and advancing the
state-of-the-art LLMs. As part of our study, we evaluate several pre-trained
multilingual language models on our benchmark to establish strong baselines as
a point of reference. Despite the large size of our datasets (tens to hundreds
of thousands of examples), existing publicly available models struggle with
most tasks, even after in-domain pretraining. We publish all resources
(benchmark suite, pre-trained models, code) under a fully permissive open CC
BY-SA license.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、多くのNLPベンチマーク(プロのドメイン固有のベンチマークでさえ)を飽和させ、LLM能力を適切に評価するための新しい、より困難な新しいベンチマークの必要性を強調している。
本稿では,長文(最大50Kトークン)の処理,ドメイン固有知識(法的テキストに具体化されている)の活用,多言語理解(5言語をカバー),マルチタスク(文書化のための法的文書の構成,情報検索,裁判所ビュー生成,決定決定の要約,引用抽出,および8つの困難なテキスト分類タスク)の4つの重要な側面において,現在のLCMに課題をもたらす新しいNLPベンチマークを提案する。
我々のベンチマークはスイスの法体系からの様々な法的NLPデータセットで構成されており、基礎となる非英語、本質的には多言語、連邦法体系の包括的な研究を可能にする。
最近の進歩にもかかわらず、厳格なレビュー/分析タスクのために長いドキュメントを効率的に処理することは、言語モデルにとってオープンな課題である。
また、高度な専門知識を必要とする包括的なドメイン固有のベンチマークは、多言語ベンチマークと同様にまれである。
この不足は、ほとんどのパブリックモデルが主に英語コーパスに基づいて訓練されているのに対して、他の言語、特に実用的なドメイン固有のnlpタスクについて、私たちの貢献の価値を強調する。
我々のベンチマークは最先端のllmのテストと進歩を可能にする。
本研究の一環として,ベンチマークで事前学習した複数言語モデルを評価し,基準点として強いベースラインを確立する。
データセットの大規模さ(数十万の例に相当)にも関わらず、既存の公開モデルでは、ドメイン内事前トレーニング後も、ほとんどのタスクに苦労しています。
完全に寛容なオープンCC BY-SAライセンスの下で、すべてのリソース(ベンチマークスイート、事前訓練済みモデル、コード)を公開します。
関連論文リスト
- OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling
Capacities of Large Language Models [151.503051479077]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - Multilingual Large Language Models Are Not (Yet) Code-Switchers [41.47534626749588]
大規模言語モデル(LLM)は、最近、幅広いタスクにおいて優れた機能を示している。
発話の中で言語を交互に行う習慣は、いまだにほとんど受け継がれていない。
LLMの現在の「多言語主義」は、本質的にはコードスイッチングテキストの習熟度を示唆していない、と我々は主張する。
論文 参考訳(メタデータ) (2023-05-23T16:50:48Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Beyond Static Models and Test Sets: Benchmarking the Potential of
Pre-trained Models Across Tasks and Languages [15.373725507698591]
本稿は,多言語評価における既存の実践を信頼できないものにし,言語環境全体にわたるMMLMの性能の全体像を提示していないことを論じる。
我々は,NLPタスクのパフォーマンス予測における最近の研究が,多言語NLPにおけるベンチマークの修正における潜在的な解決策となることを示唆する。
実験データと4つの異なる多言語データセットのケーススタディを比較し、これらの手法が翻訳に基づくアプローチとよく一致している性能の信頼性を推定できることを示した。
論文 参考訳(メタデータ) (2022-05-12T20:42:48Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - LAWDR: Language-Agnostic Weighted Document Representations from
Pre-trained Models [8.745407715423992]
言語間文書表現は、多言語コンテキストにおける言語理解を可能にする。
BERT、XLM、XLM-RoBERTaのような大規模な事前学習言語モデルは、文レベルの下流タスクを微調整することで大きな成功を収めた。
論文 参考訳(メタデータ) (2021-06-07T07:14:00Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - KLEJ: Comprehensive Benchmark for Polish Language Understanding [4.702729080310267]
ポーランド語理解のための総合的なマルチタスクベンチマークを導入する。
また、ポーランド語に特化して訓練されたトランスフォーマーベースのモデルであるHerBERTもリリースしました。
論文 参考訳(メタデータ) (2020-05-01T21:55:40Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。