論文の概要: M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context
Evaluation Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.19240v1
- Date: Mon, 30 Oct 2023 03:11:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 13:35:17.701656
- Title: M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context
Evaluation Benchmark for Large Language Models
- Title(参考訳): M4LE:大規模言語モデルのためのマルチタスクマルチタスクマルチドメイン長期評価ベンチマーク
- Authors: Wai-Chung Kwan, Xingshan Zeng, Yufei Wang, Yusen Sun, Liangyou Li,
Lifeng Shang, Qun Liu, Kam-Fai Wong
- Abstract要約: M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。
M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
- 参考スコア(独自算出の注目度): 61.06694491246026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Managing long sequences has become an important and necessary feature for
large language models (LLMs). However, it is still an open question of how to
comprehensively and systematically evaluate the long-sequence capability of
LLMs. One of the reasons is that conventional and widely-used benchmarks mainly
consist of short sequences. In this paper, we propose M4LE, a Multi-ability,
Multi-range, Multi-task, Multi-domain benchmark for Long-context Evaluation.
M4LE is based on a diverse NLP task pool comprising 36 NLP datasets, 11 task
types and 12 domains. To alleviate the scarcity of tasks with naturally long
sequences and incorporate multiple-ability assessment, we propose an automatic
approach (but with negligible human annotations) to convert short-sequence
tasks into a unified long-sequence scenario where LLMs have to identify single
or multiple relevant spans in long contexts based on explicit or semantic
hints. Specifically, the scenario includes five different types of abilities:
(1) explicit single-span; (2) semantic single-span; (3) explicit multiple-span;
(4) semantic multiple-span; and (5) global context understanding. The resulting
samples in M4LE are evenly distributed from 1k to 8k input length. We conducted
a systematic evaluation on 11 well-established LLMs, especially those optimized
for long-sequence inputs. Our results reveal that: 1) Current LLMs struggle to
understand long context, particularly when tasks require multiple-span
attention. 2) Semantic retrieval task is more difficult for competent LLMs. 3)
Models fine-tuned on longer text with position interpolation have comparable
performance to those using Neural Tangent Kernel (NTK) aware scaling methods
without fine-tuning. We make our benchmark publicly available to encourage
future research in this challenging area.
- Abstract(参考訳): 長いシーケンスを管理することは、大きな言語モデル(LLM)にとって重要かつ必要な機能となっている。
しかし、LLMの長期的能力をどのように包括的かつ体系的に評価するかについては、未解決の問題である。
その理由の1つは、従来の広く使われているベンチマークが主に短いシーケンスで構成されていることである。
本稿では,M4LE(Multi-ability, Multi-range, Multi-task, Multi-domain benchmark for Long-context Evaluation)を提案する。
M4LEは、36のNLPデータセット、11のタスクタイプ、12のドメインからなる多様なNLPタスクプールに基づいている。
自然に長いシーケンスを持つタスクの不足を軽減し、複数の可能性評価を組み込むことを目的として、短いシーケンスタスクを一貫したロングシーケンスシナリオに変換するための自動アプローチ(ただし、人間のアノテーションは無視できない)を提案する。
具体的には、(1)明示的なシングルスパン、(2)セマンティックなシングルスパン、(3)明示的なマルチスパン、(4)セマンティックなマルチスパン、(5)グローバルコンテキスト理解の5つの異なる能力を含む。
M4LEのサンプルは1kから8kまで均等に分散される。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
結果はこう示しています
1)現在のLLMは、特にタスクが複数注意を必要とする場合、長いコンテキストを理解するのに苦労している。
2)有能なLLMでは意味検索が困難である。
3) 位置補間付き長文で微調整されたモデルでは, 微調整をしないニューラルタンジェントカーネル (NTK) によるスケーリング手法と同等の性能を示した。
この挑戦的な領域における将来の研究を促進するために、ベンチマークを公開しています。
関連論文リスト
- Fine-tuning Large Language Models with Sequential Instructions [2.8967653906025426]
大きな言語モデル(LLM)は、その一部を無視したり誤解させたりするため、単一のクエリで命令列に従うのに苦労する。
本稿では,命令処理データを自動的に拡張し,複数の逐次命令を実行する能力を備えたLCMを装備するシーケンシャル命令チューニング手法を提案する。
逐次的命令調整モデルは、推論、多言語、マルチモーダル能力を含む下流タスクにおいて、従来の命令調整ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-12T16:33:30Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Multi-Task Inference: Can Large Language Models Follow Multiple
Instructions at Once? [1.3309030951937326]
マルチタスク推論は、全体の推論時間を平均1.46倍に削減する。
驚いたことに、Llama-2-Chat-70BやGPT-4のような最先端のLCMでは、マルチタスク推論によるパフォーマンスが7.3%、12.4%向上した。
論文 参考訳(メタデータ) (2024-02-18T14:25:19Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over
Tabular and Textual Data [77.66158066013924]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context
Understanding [59.623007535233]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Analysing the Effect of Masking Length Distribution of MLM: An
Evaluation Framework and Case Study on Chinese MRC Datasets [0.8566457170664925]
Masked Language Model (MLM) は、様々な PTM で広く使われている自己学習型訓練対象である。
異なる機械読解タスクでは、解答の長さも異なり、解答はしばしば語、句、文である。
本稿では,MRCデータセットにおけるマスキング長分布と解答長の相関関係から,機械読解タスクにおける4つの成功のうち,どれ程が得られたかを明らかにする。
論文 参考訳(メタデータ) (2021-09-29T04:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。