論文の概要: Beyond the Needle's Illusion: Decoupled Evaluation of Evidence Access and Use under Semantic Interference at 326M-Token Scale
- arxiv url: http://arxiv.org/abs/2601.20276v1
- Date: Wed, 28 Jan 2026 05:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.787148
- Title: Beyond the Needle's Illusion: Decoupled Evaluation of Evidence Access and Use under Semantic Interference at 326M-Token Scale
- Title(参考訳): 針のイリュージョンを超えて:326M-Tokenスケールにおける意味的干渉下でのエビデンスアクセスと使用の分離評価
- Authors: Tianwei Lin, Zuyi Zhou, Xinda Zhao, Chenke Wang, Xiaohong Li, Yu Chen, Chuanrui Hu, Jian Pei, Yafeng Deng,
- Abstract要約: 我々は,326Mのメモリバンク上に構築された逆IAHスタイルのベンチマークであるEverMemBench-S(EMB-S)を紹介する。
完全なMemoryBankは、検索ベース(RAG)評価のために326万のトークンにまたがるが、各モデルのコンテキストウィンドウに適合するスケールでのみ、ネイティブの長期コンテキストモデルを評価する。
- 参考スコア(独自算出の注目度): 18.13756357502514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context LLM agents must access the right evidence from large environments and use it faithfully. However, the popular Needle-in-a-Haystack (NIAH) evaluation mostly measures benign span localization. The needle is near-unique, and the haystack is largely irrelevant. We introduce EverMemBench-S (EMB-S), an adversarial NIAH-style benchmark built on a 326M-token MemoryBank. While the full MemoryBank spans 326M tokens for retrieval-based (RAG) evaluation, we evaluate native long-context models only at scales that fit within each model's context window (up to 1M tokens in this work) to ensure a fair comparison. EMB-S pairs queries with collision-tested near-miss hard negatives and gold evidence sets spanning one or more documents, validated via human screening and LLM verification. We also propose a decoupled diagnostic protocol that reports evidence access (document-ID localization) separately from end-to-end QA quality under full-context prompting. This enables consistent diagnosis for both native long-context prompting and retrieval pipelines. Across a reference-corpus ladder from domain-isolated 64K contexts to a globally shared 326M-token environment, we observe a clear reality gap. Systems that saturate benign NIAH degrade sharply in evidence access under semantic interference. These results indicate that semantic discrimination, not context length alone, is the dominant bottleneck for long-context memory at scale.
- Abstract(参考訳): 長文のLLMエージェントは、大きな環境から正しい証拠にアクセスし、忠実に使用しなければならない。
しかし、人気のNeedle-in-a-Haystack (NIAH) 評価は、主に局所化の良さを測るものである。
針はほぼ一様であり、干し草は無関係である。
我々は,326Mのメモリバンク上に構築された逆IAHスタイルのベンチマークであるEverMemBench-S(EMB-S)を紹介する。
完全なMemoryBankは、検索ベース(RAG)評価のために326万トークンにまたがるが、各モデルのコンテキストウィンドウ(この作業では100万トークンまで)に適合するスケールでのみ、ネイティブの長期コンテキストモデルを評価し、公正な比較を保証する。
EMB-Sは、衝突試験されたニアミスハードネガティブと、1つ以上の文書にまたがるゴールドエビデンスとクエリをペアリングし、人間のスクリーニングとLCM検証によって検証する。
また,文書IDのローカライゼーション(文書IDのローカライゼーション)を,全文プロンプトによるエンドツーエンドQA品質とは別途報告する分離診断プロトコルを提案する。
これにより、ネイティブなロングコンテキストプロンプトと検索パイプラインの両方の一貫性のある診断が可能になる。
ドメインを分離した64Kコンテキストからグローバルに共有された326M環境への参照コーパスラグを通して、明確な現実的ギャップを観察する。
良性NIAHを飽和させるシステムは、意味的干渉による証拠アクセスにおいて急速に低下する。
これらの結果は、文脈長単独ではなく意味的識別が、大規模に長いコンテキスト記憶のボトルネックとなっていることを示唆している。
関連論文リスト
- LogicScore: Fine-grained Logic Evaluation of Conciseness, Completeness, and Determinateness in Attributed Question Answering [29.294167109756042]
ローカルアセスメントからグローバルな推論の精査へとパラダイムをシフトさせる統合評価フレームワークであるtextscLogicScore を提示する。
提案手法は,テキスト完全性(論理的音声推論),テキスト簡潔性(非冗長性),テキスト決定性(一貫性解答包含)の3つの重要な推論次元を評価するために,後方検証機構を統合する。
論文 参考訳(メタデータ) (2026-01-21T14:52:03Z) - A BERTology View of LLM Orchestrations: Token- and Layer-Selective Probes for Efficient Single-Pass Classification [2.0069888187253615]
生産LLMシステムは、安全と他の分類の重いステップのために、しばしば別々のモデルに依存している。
代わりに、私たちはLLMによって既に支払われた計算を再利用し、隠れた状態の軽量プローブを訓練し、生成に使用する同じ前方パスでラベルを予測する。
論文 参考訳(メタデータ) (2026-01-19T18:40:29Z) - Short-Context Dominance: How Much Local Context Natural Language Actually Needs? [48.429870236229696]
正確な全文予測を再現するのに必要となる最小コンテキスト長を計測する。
長文文書から1-7kのトークンを持つシーケンスの場合、75-80%は最下位96トークンしか必要としない。
そこで本研究では,実際の次点知識を必要としないMCL(Distributedally Aware MCL)の実践的プロキシについて紹介する。
論文 参考訳(メタデータ) (2025-12-08T22:25:00Z) - Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation [59.40886078302025]
マルチモーダル大規模言語モデル(MLLM)は、視覚入力と自然言語出力の整合性を示す。
しかし、生成したトークンが視覚的モダリティに依存する範囲は、いまだに理解されていない。
MLLMにおける自己回帰トークン生成を説明するための軽量なブラックボックスフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T15:38:42Z) - NoLiMa: Long-Context Evaluation Beyond Literal Matching [100.00398424275501]
NoLiMaは、NIAHテストを拡張したベンチマークである。
干し草の山の中に針を見つけるためには、潜伏関係を推測するモデルが必要である。
我々は、少なくとも128Kトークンのコンテキストをサポートすると主張する13の人気のある大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-02-07T18:49:46Z) - See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。
得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文 参考訳(メタデータ) (2023-12-13T18:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。