論文の概要: Contextual Drag: How Errors in the Context Affect LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.04288v1
- Date: Wed, 04 Feb 2026 07:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.422088
- Title: Contextual Drag: How Errors in the Context Affect LLM Reasoning
- Title(参考訳): コンテキストドラッグ: LLM推論に影響を及ぼすコンテキストエラー
- Authors: Yun Cheng, Xingyu Zhu, Haoyu Zhao, Sanjeev Arora,
- Abstract要約: 我々はコンテキストドラッグと呼ばれる現象を研究する。
文脈における失敗した試みの存在は、その後の世代を構造的に類似した誤りにバイアスする。
外部からのフィードバックも自己検証の成功も、この効果を排除するのに十分でないことを示す。
- 参考スコア(独自算出の注目度): 38.35611637575897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Central to many self-improvement pipelines for large language models (LLMs) is the assumption that models can improve by reflecting on past mistakes. We study a phenomenon termed contextual drag: the presence of failed attempts in the context biases subsequent generations toward structurally similar errors. Across evaluations of 11 proprietary and open-weight models on 8 reasoning tasks, contextual drag induces 10-20% performance drops, and iterative self-refinement in models with severe contextual drag can collapse into self-deterioration. Structural analysis using tree edit distance reveals that subsequent reasoning trajectories inherit structurally similar error patterns from the context. We demonstrate that neither external feedback nor successful self-verification suffices to eliminate this effect. While mitigation strategies such as fallback-behavior fine-tuning and context denoising yield partial improvements, they fail to fully restore baseline performance, positioning contextual drag as a persistent failure mode in current reasoning architectures.
- Abstract(参考訳): 大規模言語モデル(LLM)のための多くの自己改善パイプラインの中心は、モデルが過去の間違いを反映して改善できるという仮定である。
文脈抵抗と呼ばれる現象について検討し, 文脈に失敗した試みの存在は, 構造的に類似した誤りに対して次の世代に偏りを生じさせることを示した。
8つの推論タスクにおける11のプロプライエタリモデルとオープンウェイトモデルの評価全体において、コンテキストドラッグは10~20%のパフォーマンス低下を誘発し、コンテキストドラッグが重大なモデルでは反復的な自己リファインメントは自己劣化に陥る可能性がある。
木編集距離を用いた構造解析により、後続の推論軌道がコンテキストから構造的に類似したエラーパターンを継承することが明らかとなった。
外部からのフィードバックも自己検証の成功も、この効果を排除するのに十分でないことを示す。
フォールバックビヘイビアの微調整やコンテキストデノベーションのような緩和戦略は部分的な改善をもたらすが、ベースラインのパフォーマンスを完全に回復することができず、現在の推論アーキテクチャでは、コンテキストドラッグを永続的な障害モードとして位置付ける。
関連論文リスト
- Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文 参考訳(メタデータ) (2026-02-04T07:38:42Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Reflective Confidence: Correcting Reasoning Flaws via Online Self-Correction [14.164508061248775]
大規模言語モデル(LLM)は、チェーン・オブ・ソートや自己整合性といった技術を用いて、複雑な推論タスクにおいて強力なパフォーマンスを実現している。
本稿では,低信頼信号を終端指標からリフレクショントリガに変換する新しい推論フレームワークであるリフレクティブ信頼を提案する。
AIME 2025を含む数学的推論ベンチマークの実験では、高度な早期停止ベースラインに対して、同等の計算コストで大幅に精度が向上した。
論文 参考訳(メタデータ) (2025-12-21T05:35:07Z) - From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model [72.73512218682187]
ReDiff(Refining-enhanced diffusion framework)は、モデルに自身のエラーを特定し、修正するように教えるフレームワークである。
まず、合成エラーを修正するためにモデルをトレーニングすることで、基礎的なリビジョン機能を具現化し、次に、新しいオンライン自己補正ループを実装します。
この誤り駆動学習は、モデルに既存の出力を再検討し、洗練する重要な能力を与え、エラーカスケードを効果的に破壊する。
論文 参考訳(メタデータ) (2025-10-22T06:58:55Z) - Are Large Reasoning Models Interruptible? [77.53059044071107]
LRM(Large Reasoning Models)は複雑な推論において優れているが、伝統的に静的な「凍った世界」設定で評価されている。
静的な設定で高い精度を達成できる最先端のLEMでさえ、割り込みやコンテキストの変化に晒された場合、予測不能に失敗する可能性があることを示す。
我々の分析ではさらに、漏れの原因、パニック、自己疑念など、いくつかの新しい障害モードを明らかにしている。
論文 参考訳(メタデータ) (2025-10-13T17:59:35Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - When Claims Evolve: Evaluating and Enhancing the Robustness of Embedding Models Against Misinformation Edits [5.443263983810103]
ユーザーはオンラインでクレームと対話するので、しばしば編集を導入し、現在の埋め込みモデルがそのような編集に堅牢かどうかは不明だ。
本研究では, 文埋め込みモデルの頑健性を評価するために, 有効かつ自然なクレーム変動を生成する摂動フレームワークを提案する。
評価の結果,標準埋込モデルでは編集されたクレームに顕著な性能低下がみられ,LCM蒸留埋込モデルでは高い計算コストでロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2025-03-05T11:47:32Z) - Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。
我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。
また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - Detrimental Contexts in Open-Domain Question Answering [9.059854023578508]
質問応答に使用される検索テーマのアーキテクチャに対して,パスが有害な影響を及ぼすかを分析する。
この結果から,2つの人気のあるQAデータセットにおいて,有害経路をフィルタリングすることにより,モデル精度を10%向上できることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T11:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。