論文の概要: Positional Failures in Long-Context LLMs: A Blind Spot in Reasoning Benchmarks
- arxiv url: http://arxiv.org/abs/2605.23170v1
- Date: Fri, 22 May 2026 02:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.166739
- Title: Positional Failures in Long-Context LLMs: A Blind Spot in Reasoning Benchmarks
- Title(参考訳): 長期LLMにおける位置的故障:ベンチマークにおける盲点
- Authors: Chuyifei Zhang, Hongyu Cui, Xiaowen Huang, Jitao Sang,
- Abstract要約: 位置制御評価は、Needle-in-a-HaystackやRULERといった検索タスクの標準である。
我々は11の長文ベンチマークを監査し、推論のためのタスク位置、フィラー内容、コンテキスト長を共同で制御しない。
- 参考スコア(独自算出の注目度): 17.044832085626297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Position-controlled evaluation is standard for retrieval tasks such as Needle-in-a-Haystack and RULER, but mainstream reasoning benchmarks do not control positional placement of target tasks in long contexts. We audit 11 long-context benchmarks and find none jointly controls task position, filler content, and context length for reasoning. An audit of four flagship long-context releases finds no main result-table entry for NIAH, RULER, or LongBench-family benchmarks, while agentic and coding benchmarks appear in main result-tables across all four. We propose Context Rot Evaluation (CRE), a controlled framework varying all three factors, and evaluate nine LLMs on GSM8K and ARC-Challenge across two rounds: an initial five-model set and four newer vendor releases. Models can drop sharply when the target task moves from end to middle, and the drop grows worse with context length for vulnerable models. MiMo-v2-Flash drops 88pp at 64K under with_solutions filler (middle accuracy 8%). Newer releases show smaller drops: at 64K, three of four stay within +/-6pp of end-position accuracy; MiMo-V2.5-Pro narrows the MiMo-v2-Flash 88pp drop to 32pp. Under questions_only_v2 filler, middle-position drops persist across all four (range -16pp to -56pp across 8K, 32K, 64K). At 8K, a diagnostic probe adding a target-task copy at the end brings middle accuracy within +/-4pp of end baseline across all nine models, consistent with a positional explanation. In the initial five-model set, 76% of middle-position errors match surrounding filler text versus 22% at the end position, consistent with filler-answer interference as a dominant error mode. These results expose a structural evaluation gap in current reasoning benchmark design and vendor evaluation practice: positional vulnerabilities that grow with context length cannot be measured when task position is not controlled.
- Abstract(参考訳): 位置制御された評価は、Needle-in-a-HaystackやRULERのような検索タスクでは標準的なものであるが、主流の推論ベンチマークは、長いコンテキストにおけるターゲットタスクの位置決めを制御していない。
我々は11の長文ベンチマークを監査し、推論のためのタスク位置、フィラー内容、コンテキスト長を共同で制御しない。
4つのフラグシップのロングコンテキストリリースの監査では、NIAH、RULER、LongBenchのベンチマークに対する主要な結果テーブルのエントリーは見つからず、エージェントとコーディングのベンチマークは4つの主要な結果テーブルに表示される。
GSM8K と ARC-Challenge 上の 9 つの LLM を,最初の5つのモデルセットと4つの新しいベンダーリリースの2ラウンドで評価する。
ターゲットタスクがエンドからミドルに移動すると、モデルは急降下し、脆弱なモデルでは、コンテキスト長によってドロップは悪化する。
MiMo-v2-Flashは、64Kで88ppダウンし、_solutions filler(中間精度8%)となる。
64Kでは、4つのうち3つが終了位置の精度+/6pp以内で、MiMo-V2.5-ProはMiMo-v2-Flash 88ppを32ppに絞り込む。
question_only_v2のフィラーでは、中間位置のドロップは4つすべてにわたって持続する(レンジ-16ppから8K、32K、64K)。
8Kでは、ターゲットタスクのコピーを最後に付加する診断プローブが、9つのモデルすべてに対して、エンドベースラインの+/4pp以内の精度で、位置説明と一致している。
最初の5モデルセットでは、中位誤差の76%がフィラーテキストの周囲と最終位置の22%と一致し、フィラー・アンサー干渉が支配的なエラーモードとなった。
これらの結果は、現在の推論ベンチマーク設計とベンダー評価の実践において、構造的評価のギャップを露呈している。
関連論文リスト
- Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - Shuffle the Context: RoPE-Perturbed Self-Distillation for Long-Context Adaptation [86.62036852878354]
大規模言語モデル(LLM)は、信頼性の高い長文理解を必要とする設定でますます運用される。
位置ロバスト性を向上させるトレーニングレギュレータであるRoPE-Perturbed Self-Distillationを提案する。
Llama-3-8BとQwen-3-4Bの長文適応実験は、長文ベンチマークにおいて一貫した利得を示す。
論文 参考訳(メタデータ) (2026-04-15T18:46:35Z) - Are Aligned Large Language Models Still Misaligned? [13.062124372682106]
Mis-Align Bench は、安全性、価値、文化的側面の相違を分析するための統一されたベンチマークである。
SAVACUは、112のドメイン(またはラベル)にまたがる382,424のミスアライメントデータセットである。
論文 参考訳(メタデータ) (2026-02-11T19:30:43Z) - EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。
TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。
200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文 参考訳(メタデータ) (2025-12-29T14:48:40Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs [7.9458352414205295]
大規模な言語モデルは一般的なタスクでは優れていますが、ロジック重大で精度の高い、財務、法律、医療といった重要な領域での信頼性の評価は依然として難しいままです。
BizFinBenchは、実世界の金融アプリケーションにおけるLSMの評価に特化して設計された最初のベンチマークである。
BizFinBenchは中国語で6,781の注釈付きクエリで構成されており、数値計算、推論、情報抽出、予測認識、知識に基づく質問応答の5つの次元にまたがっている。
論文 参考訳(メタデータ) (2025-05-26T03:23:02Z) - LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。
このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。
我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文 参考訳(メタデータ) (2025-05-21T15:06:59Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to 256K [57.0244259406764]
LV-Evalは5つの長さレベルが256kまで達する長文の長文ベンチマークである。
LV-Evalの利点は、異なるコンテキストの長さにわたる制御可能な評価、紛らわしい事実を持つテストインスタンスへの挑戦、より客観的な評価である。
論文 参考訳(メタデータ) (2024-02-06T13:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。