論文の概要: BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack
- arxiv url: http://arxiv.org/abs/2406.10149v2
- Date: Wed, 06 Nov 2024 14:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:21:38.847944
- Title: BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack
- Title(参考訳): BABILong: 長期的コンテキスト推論によるLLMの限界テスト
- Authors: Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev,
- Abstract要約: BABILongベンチマークを導入し、長い文書に散在する事実を推論する言語モデルの能力をテストする。
BABILongには、ファクトチェイン、単純な誘導、推論、カウント、リスト/セットの処理を含む、20の推論タスクの多様なセットが含まれている。
評価の結果,LLM は文脈の 10-20% しか有効に利用できず,その性能が急激に低下し,推論の複雑さが増大していることがわかった。
- 参考スコア(独自算出の注目度): 4.3482088816575155
- License:
- Abstract: In recent years, the input context sizes of large language models (LLMs) have increased dramatically. However, existing evaluation methods have not kept pace, failing to comprehensively assess the efficiency of models in handling long contexts. To bridge this gap, we introduce the BABILong benchmark, designed to test language models' ability to reason across facts distributed in extremely long documents. BABILong includes a diverse set of 20 reasoning tasks, including fact chaining, simple induction, deduction, counting, and handling lists/sets. These tasks are challenging on their own, and even more demanding when the required facts are scattered across long natural text. Our evaluations show that popular LLMs effectively utilize only 10-20\% of the context and their performance declines sharply with increased reasoning complexity. Among alternatives to in-context reasoning, Retrieval-Augmented Generation methods achieve a modest 60\% accuracy on single-fact question answering, independent of context length. Among context extension methods, the highest performance is demonstrated by recurrent memory transformers after fine-tuning, enabling the processing of lengths up to 50 million tokens. The BABILong benchmark is extendable to any length to support the evaluation of new upcoming models with increased capabilities, and we provide splits up to 10 million token lengths.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) の入力コンテキストサイズは劇的に増加している。
しかし、既存の評価手法はペースを保っておらず、長いコンテキストを扱う際のモデルの効率を包括的に評価することができなかった。
このギャップを埋めるために、非常に長いドキュメントに分散された事実を推論する言語モデルの能力をテストするために設計されたBABILongベンチマークを導入する。
BABILongには、ファクトチェイン、単純な誘導、推論、カウント、リスト/セットの処理を含む、20の推論タスクの多様なセットが含まれている。
これらのタスクはそれ自体が困難であり、必要な事実が長い自然のテキストに散らばっているとさらに要求される。
評価の結果,LLM は文脈の 10-20 % しか有効に利用せず,その性能が急激に低下し,推論の複雑さが増大していることがわかった。
In-context reasoning の代替として、Retrieval-Augmented Generation 法は、文脈長に依存しない単品質問応答において、わずか 60 % の精度を達成する。
文脈拡張法のうち、最高性能は微調整後の繰り返しメモリ変換器で示され、最大5000万個のトークンを処理できる。
BABILongベンチマークは任意の長さに拡張可能で、新しい機能を増強した新しいモデルの評価をサポートし、最大1000万トークン長の分割を提供する。
関連論文リスト
- Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - LongGenBench: Long-context Generation Benchmark [20.531098579781162]
ロングコンテキスト生成(Long-context generation)とは、コヒーレントで文脈的に正確なテキストを生成する言語モデルの能力である。
我々は、カスタマイズされた生成コンテキスト長の柔軟な構成を可能にする合成ベンチマークであるLongGenBenchを紹介した。
LongGenBenchは、従来のベンチマークを超えて、質問のフォーマットを再設計し、一貫性のある1つの長文の回答を必要とする。
論文 参考訳(メタデータ) (2024-10-05T15:33:25Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - RULER: What's the Real Context Size of Your Long-Context Language Models? [23.220973811374225]
我々は、長文言語モデル(LM)を評価するための新しいベンチマークを作成する。
我々はRULERにおける13のタスクを含む17の長文LMを評価した。
ほぼ全てのモデルは、コンテキスト長が増加するにつれて大きなパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2024-04-09T23:41:27Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。
最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。
XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文 参考訳(メタデータ) (2024-04-08T12:29:07Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。