論文の概要: Scaling Competence, Shrinking Reasoning: Cognitive Signatures in Language Model Learning
- arxiv url: http://arxiv.org/abs/2511.21743v1
- Date: Sat, 22 Nov 2025 01:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.197961
- Title: Scaling Competence, Shrinking Reasoning: Cognitive Signatures in Language Model Learning
- Title(参考訳): 言語モデル学習における認知的シグナチャ
- Authors: Mukul Singh, Ananya Singha, Arjun Radhakrishna, Sumit Gulwani,
- Abstract要約: タスク固有の微調整における言語モデルの推論を解析する。
推論トークンの長さは、パフォーマンスが向上するにつれて拡大する。
訓練後、モデルは推論を除去しても性能を維持する。
- 参考スコア(独自算出の注目度): 11.280772811936485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze reasoning in language models during task-specific fine-tuning and draws parallel between reasoning tokens--intermediate steps generated while solving problem and the human working memory. Drawing from cognitive science, we align training dynamics with the Four Stages of Competence: models initially produce incorrect outputs without reasoning, then begin reasoning (but still fail), eventually reason effectively, and finally solve tasks without explicit reasoning. We find that reasoning token length expands as performance improves, peaks at the stage of conscious competence, then declines as the model internalizes the task. Notably, after training, models retain performance even when reasoning is removed--suggesting it scaffolded learning but is no longer needed. This progression offers actionable insights: reasoning token dynamics can serve as a signal for diagnosing training stage, identifying convergence, and guiding early stopping. We propose metrics to track this trajectory and argue that reasoning behavior is valuable for understanding and optimizing reasoning model training.
- Abstract(参考訳): 我々は、タスク固有の微調整中の言語モデルにおける推論を分析し、課題解決時の推論トークンと人間の作業記憶の間の中間的なステップを描画する。認知科学からの描画では、トレーニングダイナミクスを4段階の能力と整合させる: 当初は推論なしで誤ったアウトプットを生成し、推論を効果的に開始し(しかしまだ失敗)、究極的には推論なしでタスクを解決した。我々は、トークン長の推論は、パフォーマンスが向上し、意識的な能力の段階でピークに達し、モデルがタスクを内部化するにつれて減少することがわかった。特に、トレーニング後のモデルでは、推論が取り除かれてもパフォーマンスは維持されるが、もはや必要ではない。
推論トークンのダイナミクスは、トレーニングステージの診断、収束の特定、早期停止の導出のシグナルとして機能する。
我々は,この軌跡を追跡するための指標を提案し,推論モデルトレーニングの理解と最適化には推論行動が有用であると主張している。
関連論文リスト
- Rethinking the Chain-of-Thought: The Roles of In-Context Learning and Pre-trained Priors [11.658759174514222]
Chain-of-Thought推論は、モデル推論能力を向上するための重要な方法論として登場した。
本稿では、文脈内学習と事前学習との二重関係の観点から、思考の連鎖的推論の動作メカニズムを考察する。
論文 参考訳(メタデータ) (2025-09-01T08:24:28Z) - Thinking Before You Speak: A Proactive Test-time Scaling Approach [54.8205006555199]
emphThinking Before You Speak (TBYS)という名前の推論フレームワークとして、私たちのアイデアを実装しています。
インテリジェンス生成のためのコンテキスト内サンプルを自動的に収集・フィルタリングするパイプラインを設計する。
挑戦的な数学的データセットの実験は、TBYSの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-26T03:43:32Z) - Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling [60.63703438729223]
異なるアーキテクチャとトレーニング手法がモデル多段階推論能力にどのように影響するかを示す。
我々は,逐次計算においてモデル深度の増加が重要な役割を担っていることを確認した。
論文 参考訳(メタデータ) (2025-08-22T18:57:08Z) - Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。
自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。
以上の結果から, SDE 動態下での反実的推論が可能となった。
論文 参考訳(メタデータ) (2025-06-05T16:02:07Z) - Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models [27.142703756752997]
数学的推論タスクにおける命令追従評価のためのベンチマークであるMathIFを紹介する。
我々の実証分析では、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係が明らかになっている。
簡単な介入であっても、性能を推論するコストはかかるものの、部分的に服従を回復できることが示される。
論文 参考訳(メタデータ) (2025-05-20T18:18:01Z) - Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs [28.565225092457897]
強化学習は、検証可能なタスクにおける言語モデルにおける自己改善を促進することができる。
また,Qwen-2.5-3BがLlama-3.2-3Bを超えることが確認された。
我々の研究は、Qwenが自然にこれらの推論行動を示すのに対して、Llamaはこれらを欠いていることを明らかにしている。
論文 参考訳(メタデータ) (2025-03-03T08:46:22Z) - Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。
効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。
私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文 参考訳(メタデータ) (2024-11-04T07:10:24Z) - Implicit Chain of Thought Reasoning via Knowledge Distillation [58.80851216530288]
思考推論ステップの連鎖を明示的に生成する代わりに、言語モデルの内部の隠れ状態を使用して暗黙の推論を行います。
このアプローチにより、明示的にチェーン・オブ・シントなしでは解決不可能なタスクを、非チェーン・オブ・シントに匹敵する速度で解決できることが分かりました。
論文 参考訳(メタデータ) (2023-11-02T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。