論文の概要: Performative Thinking? The Brittle Correlation Between CoT Length and Problem Complexity
- arxiv url: http://arxiv.org/abs/2509.07339v1
- Date: Tue, 09 Sep 2025 02:31:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.16928
- Title: Performative Thinking? The Brittle Correlation Between CoT Length and Problem Complexity
- Title(参考訳): コンフォーマティブ思考 : CoT長さと問題複雑度との脆性相関
- Authors: Vardhan Palod, Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati,
- Abstract要約: 本研究は,中間トークン列長が問題難易度と相関するか否かを批判的に検討する。
我々は、A*探索アルゴリズムの導出トレースに基づいて、スクラッチからトランスフォーマーモデルを訓練する。
最も単純なタスクであっても、しばしば過度に長い推論トレースを生成し、時にはソリューションの生成に失敗する。
- 参考スコア(独自算出の注目度): 23.225139930889522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intermediate token generation (ITG), where a model produces output before the solution, has been proposed as a method to improve the performance of language models on reasoning tasks. While these reasoning traces or Chain of Thoughts (CoTs) are correlated with performance gains, the mechanisms underlying them remain unclear. A prevailing assumption in the community has been to anthropomorphize these tokens as "thinking", treating longer traces as evidence of higher problem-adaptive computation. In this work, we critically examine whether intermediate token sequence length reflects or correlates with problem difficulty. To do so, we train transformer models from scratch on derivational traces of the A* search algorithm, where the number of operations required to solve a maze problem provides a precise and verifiable measure of problem complexity. We first evaluate the models on trivial free-space problems, finding that even for the simplest tasks, they often produce excessively long reasoning traces and sometimes fail to generate a solution. We then systematically evaluate the model on out-of-distribution problems and find that the intermediate token length and ground truth A* trace length only loosely correlate. We notice that the few cases where correlation appears are those where the problems are closer to the training distribution, suggesting that the effect arises from approximate recall rather than genuine problem-adaptive computation. This suggests that the inherent computational complexity of the problem instance is not a significant factor, but rather its distributional distance from the training data. These results challenge the assumption that intermediate trace generation is adaptive to problem difficulty and caution against interpreting longer sequences in systems like R1 as automatically indicative of "thinking effort".
- Abstract(参考訳): 中間トークン生成(ITG)は、推論タスクにおける言語モデルの性能向上手法として提案されている。
これらの推論トレースやCoT(Chain of Thoughts)は性能向上と相関するが、その基盤となるメカニズムはいまだ不明である。
コミュニティにおける一般的な仮定は、これらのトークンを「思考」として人為的に形作り、長いトレースをより高い問題適応計算の証拠として扱うことである。
本研究では,中間トークン列長が問題難易度に反映するか否かを批判的に検討する。
そこで我々はA*探索アルゴリズムの導出トレースに基づいて変換器モデルをスクラッチから訓練する。
我々はまず、自明な自由空間問題に関するモデルを評価し、最も単純なタスクであっても、しばしば過度に長い推論トレースを生成し、時には解を生成できないことを発見した。
次に,分布外問題に関するモデルを体系的に評価し,中間トークン長と基底真理 A* トレース長がゆるやかに相関することを発見した。
相関が現れるケースはトレーニング分布に近づき、真の問題適応型計算ではなく、近似的なリコールから生じることを示唆する。
これは、問題インスタンス固有の計算複雑性が重要な要因ではなく、トレーニングデータから分布距離であることを示している。
これらの結果は、中間トレース生成が問題の難易度に適応しているという仮定に挑戦し、R1のようなシステムの長いシーケンスを「努力」を自動で表すものとして解釈しないように注意する。
関連論文リスト
- Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。
モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文 参考訳(メタデータ) (2025-09-05T16:40:13Z) - On the Bias of Next-Token Predictors Toward Systematically Inefficient Reasoning: A Shortest-Path Case Study [4.319482898846564]
大規模言語モデルにおける推論を改善するための2つの重要な要因について検討する。
我々は、カスタムトークン化器を用いて、質問-トレース-回答三重項に対してデコーダのみの変換器を訓練する。
同じトレーニングの予算で、非効率なトレースで訓練されたモデルは、目に見えないグラフよりも一般化される。
論文 参考訳(メタデータ) (2025-07-07T18:00:06Z) - Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation [14.489157453882767]
この研究は、推論トレースと最終的なパフォーマンスとの相関を評価することの課題に対処することを目的としている。
規則に基づく問題分解を利用して解釈可能なトレースを生成する。
具体的には、この問題を分類ステップと情報検索ステップに分解して、オープンブックQAにおけるこのアプローチを実証する。
論文 参考訳(メタデータ) (2025-05-20T00:49:19Z) - Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens [14.78605805191225]
中間トークンのセマンティクスが「思考」や「推論トレース」として人間化され、実際にモデル性能にどのように影響するかを考察する。
解のみのベースラインが大幅に改善されているにもかかわらず、完全に正しいトレースで訓練されたモデルは、正しい解に到達すると、いまだに不正な推論トレースを生成する。
論文 参考訳(メタデータ) (2025-05-19T23:29:23Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Disentangling Observed Causal Effects from Latent Confounders using
Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。
我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文 参考訳(メタデータ) (2021-01-17T07:48:45Z) - Learning Causal Models Online [103.87959747047158]
予測モデルは、予測を行うためにデータの急激な相関に依存することができる。
強い一般化を達成するための一つの解決策は、モデルに因果構造を組み込むことである。
本稿では,突発的特徴を継続的に検出・除去するオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-12T20:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。