論文の概要: M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.19240v2
- Date: Sat, 27 Jul 2024 09:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 00:36:23.499266
- Title: M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models
- Title(参考訳): M4LE:大規模言語モデルのためのマルチタスクマルチタスクマルチドメイン長期評価ベンチマーク
- Authors: Wai-Chung Kwan, Xingshan Zeng, Yufei Wang, Yusen Sun, Liangyou Li, Lifeng Shang, Qun Liu, Kam-Fai Wong,
- Abstract要約: M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。
M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
- 参考スコア(独自算出の注目度): 58.54538318912159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Managing long sequences has become an important and necessary feature for large language models (LLMs). However, it is still an open question of how to comprehensively and systematically evaluate the long-sequence capability of LLMs. One of the reasons is that conventional and widely-used benchmarks mainly consist of short sequences. In this paper, we propose M4LE, a Multi-ability, Multi-range, Multi-task, Multi-domain benchmark for Long-context Evaluation. M4LE is based on a diverse NLP task pool comprising 36 NLP datasets, 11 task types and 12 domains. To alleviate the scarcity of tasks with naturally long sequences and incorporate multiple-ability assessment, we propose an automatic approach (but with negligible human annotations) to convert short-sequence tasks into a unified long-sequence scenario where LLMs have to identify single or multiple relevant spans in long contexts based on explicit or semantic hints. Specifically, the scenario includes five different types of abilities: (1) explicit single-span; (2) semantic single-span; (3) explicit multiple-span; (4) semantic multiple-span; and (5) global context understanding. The resulting samples in M4LE are evenly distributed from 1k to 8k input length. We conducted a systematic evaluation on 11 well-established LLMs, especially those optimized for long-sequence inputs. Our results reveal that: 1) Current LLMs struggle to understand long context, particularly when tasks require multiple-span attention. 2) Semantic retrieval task is more difficult for competent LLMs. 3) Models fine-tuned on longer text with position interpolation have comparable performance to those using Neural Tangent Kernel (NTK) aware scaling methods without fine-tuning. We make our benchmark publicly available to encourage future research in this challenging area.
- Abstract(参考訳): 長いシーケンスを管理することは、大きな言語モデル(LLM)にとって重要かつ必要な機能となっている。
しかし、LLMの長期的能力をどのように包括的かつ体系的に評価するかについては、未解決の問題である。
その理由の1つは、従来の広く使われているベンチマークが主に短いシーケンスで構成されていることである。
本稿では,M4LE(Multi-ability, Multi-range, Multi-task, Multi-domain benchmark for Long-context Evaluation)を提案する。
M4LEは、36のNLPデータセット、11のタスクタイプ、12のドメインからなる多様なNLPタスクプールに基づいている。
自然に長いシーケンスを持つタスクの不足を軽減し、複数の可能性評価を組み込むため、LLMが1つまたは複数の関連するスパンを、明示的または意味的なヒントに基づいて長いコンテキストで識別しなければならないような、短いシーケンスタスクを統一されたロングシーケンスシナリオに変換するための自動アプローチ(ただし、人間のアノテーションは無視できない)を提案する。
具体的には、(1)明示的な単一スパン、(2)意味的な単一スパン、(3)明示的な多重スパン、(4)意味的な多重スパン、(5)グローバルな文脈理解の5つの異なるタイプの能力を含む。
M4LEのサンプルは1kから8kの入力長に均等に分散される。
提案手法は,11個のLLM,特に長文入力に最適化されたLLMに対して,系統的評価を行った。
私たちの結果はこう明らかです。
1)現在のLLMは、特にタスクが複数回の注意を必要とする場合、長いコンテキストを理解するのに苦労している。
2) 有能なLLMでは, 意味検索作業が困難である。
3) 位置補間付き長文で微調整されたモデルでは, 微調整をしないニューラルタンジェントカーネル (NTK) によるスケーリング手法に匹敵する性能を示した。
この挑戦的な領域における将来の研究を促進するために、ベンチマークを公開しています。
関連論文リスト
- NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - LongIns: A Challenging Long-context Instruction-based Exam for LLMs [44.51209510772957]
大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。
本稿ではLongInsベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-25T14:31:26Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - Counting-Stars: A Multi-evidence, Position-aware, and Scalable Benchmark for Evaluating Long-Context Large Language Models [14.906150451947443]
長文Large Language Models (LLMs) の評価のためのベンチマークであるCounting-Starsを提案する。
長文LCM(GPT-4 Turbo, Gemini 1.5 Pro, Claude3 Opus, GLM-4, Moonshot-v1)の評価実験を行った。
GPT-4 Turboは様々なタスクで最も安定している。
論文 参考訳(メタデータ) (2024-03-18T14:01:45Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Analysing the Effect of Masking Length Distribution of MLM: An
Evaluation Framework and Case Study on Chinese MRC Datasets [0.8566457170664925]
Masked Language Model (MLM) は、様々な PTM で広く使われている自己学習型訓練対象である。
異なる機械読解タスクでは、解答の長さも異なり、解答はしばしば語、句、文である。
本稿では,MRCデータセットにおけるマスキング長分布と解答長の相関関係から,機械読解タスクにおける4つの成功のうち,どれ程が得られたかを明らかにする。
論文 参考訳(メタデータ) (2021-09-29T04:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。