論文の概要: Reasoning Shift: How Context Silently Shortens LLM Reasoning
- arxiv url: http://arxiv.org/abs/2604.01161v1
- Date: Wed, 01 Apr 2026 17:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.112251
- Title: Reasoning Shift: How Context Silently Shortens LLM Reasoning
- Title(参考訳): 推論のシフト: LLM推論をSilentlyに短縮する方法
- Authors: Gleb Rodionov,
- Abstract要約: 大規模言語モデル(LLM)は、拡張された推論トレースや自己検証のようなテスト時のスケーリング動作を示すもので、複雑な長期的推論タスクにおいて顕著な性能を示している。
本稿では,3つのシナリオにまたがる推論モデルのロバスト性について検討する。 長大で無関係な文脈で拡張された問題, 独立タスクによる多ターン会話設定, 複雑なタスクにおけるサブタスクとして提示される問題である。
推論モデルでは,同じ問題に対して,異なる文脈条件下でより短い推論トレース(最大50%)を生成する傾向がみられた。
- 参考スコア(独自算出の注目度): 2.143376938174599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibiting test-time scaling behavior, such as extended reasoning traces and self-verification, have demonstrated remarkable performance on complex, long-term reasoning tasks. However, the robustness of these reasoning behaviors remains underexplored. To investigate this, we conduct a systematic evaluation of multiple reasoning models across three scenarios: (1) problems augmented with lengthy, irrelevant context; (2) multi-turn conversational settings with independent tasks; and (3) problems presented as a subtask within a complex task. We observe an interesting phenomenon: reasoning models tend to produce much shorter reasoning traces (up to 50%) for the same problem under different context conditions compared to the traces produced when the problem is presented in isolation. A finer-grained analysis reveals that this compression is associated with a decrease in self-verification and uncertainty management behaviors, such as double-checking. While this behavioral shift does not compromise performance on straightforward problems, it might affect performance on more challenging tasks. We hope our findings draw additional attention to both the robustness of reasoning models and the problem of context management for LLMs and LLM-based agents.
- Abstract(参考訳): 大規模言語モデル(LLM)は、拡張された推論トレースや自己検証のようなテスト時のスケーリング動作を示すもので、複雑な長期的推論タスクにおいて顕著な性能を示している。
しかし、これらの推論行動の堅牢性はいまだ解明されていない。
そこで本研究では,(1)長大かつ無関係な文脈で拡張された問題,(2)独立タスクによるマルチターン会話設定,(3)複雑なタスクにおけるサブタスクとして提示される問題,の3つのシナリオを対象に,複数の推論モデルの体系的評価を行う。
推論モデルは、異なる文脈条件下で同じ問題に対してより短い推論トレース(最大50%)を生成する傾向がある。
よりきめ細かい分析により、この圧縮は、二重チェックのような自己検証と不確実性管理の振る舞いの減少と関連していることが明らかになった。
この行動シフトは、単純な問題ではパフォーマンスを損なわないが、より困難なタスクではパフォーマンスに影響を与える可能性がある。
我々は,LLM と LLM をベースとしたエージェントにおける推論モデルの堅牢性とコンテキスト管理の問題に,さらなる注意を払っていることを願っている。
関連論文リスト
- To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks [56.11584171938381]
心の理論 (ToM) は、モデルが信念、欲望、意図などの隠された精神状態を推測できるかどうかを評価する。
近年のLRM(Large Reasoning Models)の進歩により、数学やコーディングにおけるステップバイステップ推論が向上している。
本研究では,9つの大規模言語モデル(LLM)の体系的研究を行い,推論モデルと非推論モデルを比較した。
論文 参考訳(メタデータ) (2026-02-11T08:16:13Z) - Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure [58.89643769707751]
表現空間における潜在連鎖を操作可能な因果過程として研究する。
遅延ステップの予算は、均質な余分な深さよりも、非局所的なルーティングを備えたステージ機能のように振る舞う。
これらの結果は、モード条件と安定性を意識した分析を、潜伏推論システムの解釈と改善のための信頼性の高いツールとして動機付けている。
論文 参考訳(メタデータ) (2026-02-09T15:25:12Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Consistency Is Not Always Correct: Towards Understanding the Role of Exploration in Post-Training Reasoning [75.79451512757844]
基礎モデルは幅広い知識を示すが、タスク固有の推論は限定的である。
RLVRと推論スケーリングは、RLVRや推論スケーリングのようなトレーニング後の戦略を動機付けます。
RLVRはスキューズ効果を誘発し,推論エントロピーを減少させ,正しい経路を忘れることを示した。
論文 参考訳(メタデータ) (2025-11-10T18:25:26Z) - Selection, Reflection and Self-Refinement: Revisit Reasoning Tasks via a Causal Lens [19.316594303998667]
推論タスクは、機械学習モデルの能力を評価するための厳格なベンチマークとみなされてきた。
我々は、因果的視点から推論タスクを再考し、潜在空間におけるそれらの振る舞いを理解する。
SR$2$と呼ばれるフレームワークを導入し、推定された潜在変数を選択機構にフィードバックとして組み込む。
論文 参考訳(メタデータ) (2025-10-09T13:45:31Z) - Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。
モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。
これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-19T00:06:13Z) - The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.266145641151375]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。
我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。
また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文 参考訳(メタデータ) (2025-06-07T22:42:29Z) - Exploring LLM Reasoning Through Controlled Prompt Variations [0.9217021281095907]
我々は,4種類の急激な摂動に直面する場合,最先端モデルが論理的整合性と正当性を維持するかを評価する。
13個のオープンソースおよびクローズドソース LLM を用いて実験を行った結果,モデルコンテキストウィンドウ内に無関係なコンテキストを導入することで,性能が著しく低下することが判明した。
ある摂動は、明示的なプロンプトなしでも、必然的にチェーンオブ思考のような推論行動を引き起こす。
論文 参考訳(メタデータ) (2025-04-02T20:18:50Z) - Reasoning Effort and Problem Complexity: A Scaling Analysis in LLMs [26.494798719138526]
大規模言語モデルの推論の取り組みは,問題複雑性とともにどのようにスケールするかを検討する。
この結果から, 推理作業は問題の大きさに応じて規模が大きくなるが, 重大な問題にのみ対処できることが示唆された。
論文 参考訳(メタデータ) (2025-03-19T11:13:51Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。