論文の概要: M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.19240v2
- Date: Sat, 27 Jul 2024 09:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 00:36:23.499266
- Title: M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models
- Title(参考訳): M4LE:大規模言語モデルのためのマルチタスクマルチタスクマルチドメイン長期評価ベンチマーク
- Authors: Wai-Chung Kwan, Xingshan Zeng, Yufei Wang, Yusen Sun, Liangyou Li, Lifeng Shang, Qun Liu, Kam-Fai Wong,
- Abstract要約: M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。
M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
- 参考スコア(独自算出の注目度): 58.54538318912159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Managing long sequences has become an important and necessary feature for large language models (LLMs). However, it is still an open question of how to comprehensively and systematically evaluate the long-sequence capability of LLMs. One of the reasons is that conventional and widely-used benchmarks mainly consist of short sequences. In this paper, we propose M4LE, a Multi-ability, Multi-range, Multi-task, Multi-domain benchmark for Long-context Evaluation. M4LE is based on a diverse NLP task pool comprising 36 NLP datasets, 11 task types and 12 domains. To alleviate the scarcity of tasks with naturally long sequences and incorporate multiple-ability assessment, we propose an automatic approach (but with negligible human annotations) to convert short-sequence tasks into a unified long-sequence scenario where LLMs have to identify single or multiple relevant spans in long contexts based on explicit or semantic hints. Specifically, the scenario includes five different types of abilities: (1) explicit single-span; (2) semantic single-span; (3) explicit multiple-span; (4) semantic multiple-span; and (5) global context understanding. The resulting samples in M4LE are evenly distributed from 1k to 8k input length. We conducted a systematic evaluation on 11 well-established LLMs, especially those optimized for long-sequence inputs. Our results reveal that: 1) Current LLMs struggle to understand long context, particularly when tasks require multiple-span attention. 2) Semantic retrieval task is more difficult for competent LLMs. 3) Models fine-tuned on longer text with position interpolation have comparable performance to those using Neural Tangent Kernel (NTK) aware scaling methods without fine-tuning. We make our benchmark publicly available to encourage future research in this challenging area.
- Abstract(参考訳): 長いシーケンスを管理することは、大きな言語モデル(LLM)にとって重要かつ必要な機能となっている。
しかし、LLMの長期的能力をどのように包括的かつ体系的に評価するかについては、未解決の問題である。
その理由の1つは、従来の広く使われているベンチマークが主に短いシーケンスで構成されていることである。
本稿では,M4LE(Multi-ability, Multi-range, Multi-task, Multi-domain benchmark for Long-context Evaluation)を提案する。
M4LEは、36のNLPデータセット、11のタスクタイプ、12のドメインからなる多様なNLPタスクプールに基づいている。
自然に長いシーケンスを持つタスクの不足を軽減し、複数の可能性評価を組み込むため、LLMが1つまたは複数の関連するスパンを、明示的または意味的なヒントに基づいて長いコンテキストで識別しなければならないような、短いシーケンスタスクを統一されたロングシーケンスシナリオに変換するための自動アプローチ(ただし、人間のアノテーションは無視できない)を提案する。
具体的には、(1)明示的な単一スパン、(2)意味的な単一スパン、(3)明示的な多重スパン、(4)意味的な多重スパン、(5)グローバルな文脈理解の5つの異なるタイプの能力を含む。
M4LEのサンプルは1kから8kの入力長に均等に分散される。
提案手法は,11個のLLM,特に長文入力に最適化されたLLMに対して,系統的評価を行った。
私たちの結果はこう明らかです。
1)現在のLLMは、特にタスクが複数回の注意を必要とする場合、長いコンテキストを理解するのに苦労している。
2) 有能なLLMでは, 意味検索作業が困難である。
3) 位置補間付き長文で微調整されたモデルでは, 微調整をしないニューラルタンジェントカーネル (NTK) によるスケーリング手法に匹敵する性能を示した。
この挑戦的な領域における将来の研究を促進するために、ベンチマークを公開しています。
関連論文リスト
- Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - Investigating Large Language Models for Complex Word Identification in Multilingual and Multidomain Setups [1.8377902806196766]
複雑な単語識別(CWI)は語彙的単純化作業において必須のステップであり、最近はそれ自体がタスクとなっている。
大規模言語モデル(LLM)は最近、ゼロ/フェーショット設定で目に見えないタスクを解決できる汎用性と能力のために、自然言語処理コミュニティで人気を博した。
Llama 2, Llama 3, Vicuna v1.5などのオープンソースモデルや, CWI, LCP, MWE設定におけるChatGPT-3.5-turbo, GPT-4oなどのクローズソースなど, LLMの使用状況について検討した。
論文 参考訳(メタデータ) (2024-11-03T22:31:02Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - Counting-Stars: A Multi-evidence, Position-aware, and Scalable Benchmark for Evaluating Long-Context Large Language Models [14.906150451947443]
長文Large Language Models (LLMs) の評価のためのベンチマークであるCounting-Starsを提案する。
長文LCM(GPT-4 Turbo, Gemini 1.5 Pro, Claude3 Opus, GLM-4, Moonshot-v1)の評価実験を行った。
GPT-4 Turboは様々なタスクで最も安定している。
論文 参考訳(メタデータ) (2024-03-18T14:01:45Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。