論文の概要: M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context
Evaluation Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.19240v1
- Date: Mon, 30 Oct 2023 03:11:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 13:35:17.701656
- Title: M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context
Evaluation Benchmark for Large Language Models
- Title(参考訳): M4LE:大規模言語モデルのためのマルチタスクマルチタスクマルチドメイン長期評価ベンチマーク
- Authors: Wai-Chung Kwan, Xingshan Zeng, Yufei Wang, Yusen Sun, Liangyou Li,
Lifeng Shang, Qun Liu, Kam-Fai Wong
- Abstract要約: M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。
M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
- 参考スコア(独自算出の注目度): 61.06694491246026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Managing long sequences has become an important and necessary feature for
large language models (LLMs). However, it is still an open question of how to
comprehensively and systematically evaluate the long-sequence capability of
LLMs. One of the reasons is that conventional and widely-used benchmarks mainly
consist of short sequences. In this paper, we propose M4LE, a Multi-ability,
Multi-range, Multi-task, Multi-domain benchmark for Long-context Evaluation.
M4LE is based on a diverse NLP task pool comprising 36 NLP datasets, 11 task
types and 12 domains. To alleviate the scarcity of tasks with naturally long
sequences and incorporate multiple-ability assessment, we propose an automatic
approach (but with negligible human annotations) to convert short-sequence
tasks into a unified long-sequence scenario where LLMs have to identify single
or multiple relevant spans in long contexts based on explicit or semantic
hints. Specifically, the scenario includes five different types of abilities:
(1) explicit single-span; (2) semantic single-span; (3) explicit multiple-span;
(4) semantic multiple-span; and (5) global context understanding. The resulting
samples in M4LE are evenly distributed from 1k to 8k input length. We conducted
a systematic evaluation on 11 well-established LLMs, especially those optimized
for long-sequence inputs. Our results reveal that: 1) Current LLMs struggle to
understand long context, particularly when tasks require multiple-span
attention. 2) Semantic retrieval task is more difficult for competent LLMs. 3)
Models fine-tuned on longer text with position interpolation have comparable
performance to those using Neural Tangent Kernel (NTK) aware scaling methods
without fine-tuning. We make our benchmark publicly available to encourage
future research in this challenging area.
- Abstract(参考訳): 長いシーケンスを管理することは、大きな言語モデル(LLM)にとって重要かつ必要な機能となっている。
しかし、LLMの長期的能力をどのように包括的かつ体系的に評価するかについては、未解決の問題である。
その理由の1つは、従来の広く使われているベンチマークが主に短いシーケンスで構成されていることである。
本稿では,M4LE(Multi-ability, Multi-range, Multi-task, Multi-domain benchmark for Long-context Evaluation)を提案する。
M4LEは、36のNLPデータセット、11のタスクタイプ、12のドメインからなる多様なNLPタスクプールに基づいている。
自然に長いシーケンスを持つタスクの不足を軽減し、複数の可能性評価を組み込むことを目的として、短いシーケンスタスクを一貫したロングシーケンスシナリオに変換するための自動アプローチ(ただし、人間のアノテーションは無視できない)を提案する。
具体的には、(1)明示的なシングルスパン、(2)セマンティックなシングルスパン、(3)明示的なマルチスパン、(4)セマンティックなマルチスパン、(5)グローバルコンテキスト理解の5つの異なる能力を含む。
M4LEのサンプルは1kから8kまで均等に分散される。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
結果はこう示しています
1)現在のLLMは、特にタスクが複数注意を必要とする場合、長いコンテキストを理解するのに苦労している。
2)有能なLLMでは意味検索が困難である。
3) 位置補間付き長文で微調整されたモデルでは, 微調整をしないニューラルタンジェントカーネル (NTK) によるスケーリング手法と同等の性能を示した。
この挑戦的な領域における将来の研究を促進するために、ベンチマークを公開しています。
関連論文リスト
- Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - Investigating Large Language Models for Complex Word Identification in Multilingual and Multidomain Setups [1.8377902806196766]
複雑な単語識別(CWI)は語彙的単純化作業において必須のステップであり、最近はそれ自体がタスクとなっている。
大規模言語モデル(LLM)は最近、ゼロ/フェーショット設定で目に見えないタスクを解決できる汎用性と能力のために、自然言語処理コミュニティで人気を博した。
Llama 2, Llama 3, Vicuna v1.5などのオープンソースモデルや, CWI, LCP, MWE設定におけるChatGPT-3.5-turbo, GPT-4oなどのクローズソースなど, LLMの使用状況について検討した。
論文 参考訳(メタデータ) (2024-11-03T22:31:02Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - Counting-Stars: A Multi-evidence, Position-aware, and Scalable Benchmark for Evaluating Long-Context Large Language Models [14.906150451947443]
長文Large Language Models (LLMs) の評価のためのベンチマークであるCounting-Starsを提案する。
長文LCM(GPT-4 Turbo, Gemini 1.5 Pro, Claude3 Opus, GLM-4, Moonshot-v1)の評価実験を行った。
GPT-4 Turboは様々なタスクで最も安定している。
論文 参考訳(メタデータ) (2024-03-18T14:01:45Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。