論文の概要: A Controllable Examination for Long-Context Language Models
- arxiv url: http://arxiv.org/abs/2506.02921v1
- Date: Tue, 03 Jun 2025 14:23:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.787908
- Title: A Controllable Examination for Long-Context Language Models
- Title(参考訳): 長期言語モデルに対する可制御性の検討
- Authors: Yijun Yang, Zeyu Huang, Wenhao Zhu, Zihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan Titov,
- Abstract要約: 本研究は、長文言語モデルを評価するための新しいベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは意味的理解や基礎的推論が不足していることが明らかとなった。
LongBioBenchは、真の言語タスクのミラーリングと制御性維持のトレードオフを向上する。
- 参考スコア(独自算出の注目度): 45.47345679278309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing frameworks for evaluating long-context language models (LCLM) can be broadly categorized into real-world and synthetic tasks. Despite their utility, both approaches are accompanied by certain intrinsic limitations. Real-world tasks are too complex to interpret or characterize and are susceptible to data contamination. In contrast, synthetic tasks often adopt the needle-in-the-haystack (NIAH) format, wherein a lack of coherence between the "needle" and the "haystack" compromises their validity as proxies for realistic applications. In response to these challenges, we posit that an ideal long-context evaluation framework should be characterized by three essential features: $\textit{seamless context}$, $\textit{controllable setting}$, and $\textit{sound evaluation}$. This study introduces $\textbf{LongBioBench}$, a novel benchmark that utilizes artificially generated biographies as a controlled environment for assessing LCLMs across dimensions of $\textit{understanding}$, $\textit{reasoning}$, and $\textit{trustworthiness}$. Our experimental evaluation, which includes $\textbf{18}$ LCLMs in total, demonstrates that most models still exhibit deficiencies in semantic understanding and elementary reasoning over retrieved results and are less trustworthy as context length increases. Our further analysis indicates some design choices employed by existing synthetic benchmarks, such as contextual non-coherence, numerical needles, and the absence of distractors, rendering them vulnerable to test the model long-context capabilities. Moreover, we also reveal that long-context continual pretraining primarily adjusts RoPE embedding to accommodate extended context lengths. To sum up, compared to previous synthetic benchmarks, LongBioBench achieves a better trade-off between mirroring authentic language tasks and maintaining controllability, and is highly interpretable and configurable.
- Abstract(参考訳): LCLM(Long-context Language Model)を評価する既存のフレームワークは、現実世界と合成タスクに広く分類することができる。
実用性にも拘わらず、どちらのアプローチも固有の制限を伴っている。
現実世界のタスクは、解釈や特徴付けには複雑すぎるため、データ汚染の影響を受けやすい。
対照的に、合成タスクはしばしばNIAH(Needle-in-the-haystack)形式を採用しており、「needle」と「haystack」の一貫性の欠如は、現実的な応用のためのプロキシとしての有効性を損なう。
これらの課題に対応するため、理想的なロングコンテキスト評価フレームワークは、$\textit{seamless context}$、$\textit{controllable setting}$、$\textit{sound evaluation}$の3つの重要な特徴によって特徴づけられるべきであると仮定する。
このベンチマークは、人工的に生成されたバイオグラフィーを制御環境として利用し、$\textit{understanding}$, $\textit{reasoning}$, $\textit{trustworthiness}$の次元にわたるLCLMを評価する。
LCLMの合計$\textbf{18}$を含む実験結果から,ほとんどのモデルでは,検索結果に対する意味的理解や基本的推論が不足しており,文脈長の増加とともに信頼性が低下していることが示された。
さらに分析した結果、文脈的非コヒーレンス、数値針、乱れの欠如など、既存の合成ベンチマークで採用されているいくつかの設計選択が示され、モデル長文機能をテストするのに脆弱な結果となった。
さらに,長いコンテキストの継続事前学習は,コンテキスト長の延長に対応するため,RoPEの埋め込みを主眼的に調整することを明らかにした。
要約すると、以前の合成ベンチマークと比較して、LongBioBenchは、真の言語タスクのミラーリングと制御可能性の維持の間のトレードオフをより良く達成し、高度に解釈可能で設定可能である。
関連論文リスト
- LiveLongBench: Tackling Long-Context Understanding for Spoken Texts from Live Streams [4.917265821383127]
実世界のシナリオの冗長性に富む会話の性質を反映した,ライブストリームから派生した最初の音声長文データセットを構築した。
我々は、これらのタスクにおける長文理解能力を評価するために、人気のあるLLMと特殊手法の両方を評価した。
本研究は,現在の手法の限界を浮き彫りにし,長文理解の改善に向けた今後の方向性を示唆するものである。
論文 参考訳(メタデータ) (2025-04-24T08:27:48Z) - Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。
制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。
これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文 参考訳(メタデータ) (2025-02-21T17:02:40Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - ETHIC: Evaluating Large Language Models on Long-Context Tasks with High Information Coverage [21.036912648701264]
本稿では,クエリの応答に必要な入力コンテキストの割合を定量化する,情報カバレッジ(IC)と呼ばれる新しい指標を提案する。
ETHICは、LLMがコンテキスト全体を活用する能力を評価するために設計された新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-22T09:35:42Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in Information-Dense Context? [43.98513461616172]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。