論文の概要: Metacognitive Reuse: Turning Recurring LLM Reasoning Into Concise Behaviors
- arxiv url: http://arxiv.org/abs/2509.13237v1
- Date: Tue, 16 Sep 2025 16:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.181454
- Title: Metacognitive Reuse: Turning Recurring LLM Reasoning Into Concise Behaviors
- Title(参考訳): メタ認知的再利用 : 再帰的LLM推論を簡潔な行動に変換する
- Authors: Aniket Didolkar, Nicolas Ballas, Sanjeev Arora, Anirudh Goyal,
- Abstract要約: 大規模言語モデル(LLM)は、思考の連鎖を拡大することによって、多段階の問題を解決する。
再帰的推論の断片を簡潔かつ再利用可能な「行動」に変換する簡単なメカニズムについて検討する。
これらの振る舞いは"振る舞いハンドブック"に格納され、推論時のモデルインコンテキストにそれらを供給するか、教師付き微調整によってパラメータに蒸留する。
- 参考スコア(独自算出の注目度): 45.578570554635775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) now solve multi-step problems by emitting extended chains of thought. During the process, they often re-derive the same intermediate steps across problems, inflating token usage and latency. This saturation of the context window leaves less capacity for exploration. We study a simple mechanism that converts recurring reasoning fragments into concise, reusable "behaviors" (name + instruction) via the model's own metacognitive analysis of prior traces. These behaviors are stored in a "behavior handbook" which supplies them to the model in-context at inference or distills them into parameters via supervised fine-tuning. This approach achieves improved test-time reasoning across three different settings - 1) Behavior-conditioned inference: Providing the LLM relevant behaviors in-context during reasoning reduces number of reasoning tokens by up to 46% while matching or improving baseline accuracy; 2) Behavior-guided self-improvement: Without any parameter updates, the model improves its own future reasoning by leveraging behaviors from its own past problem solving attempts. This yields up to 10% higher accuracy than a naive critique-and-revise baseline; and 3) Behavior-conditioned SFT: SFT on behavior-conditioned reasoning traces is more effective at converting non-reasoning models into reasoning models as compared to vanilla SFT. Together, these results indicate that turning slow derivations into fast procedural hints enables LLMs to remember how to reason, not just what to conclude.
- Abstract(参考訳): 大規模言語モデル(LLM)は、思考の連鎖を拡大することによって、多段階の問題を解決する。
プロセス中は、しばしば、トークンの使用量とレイテンシを膨らませて、問題全体で同じ中間ステップを導出します。
このコンテキストウィンドウの飽和は、探索能力の低下を招いている。
本研究では,再帰的推論の断片を,モデル自身のメタ認知分析により,簡潔かつ再利用可能な「行動」(名前+指示)に変換する機構について検討する。
これらの振る舞いは"振る舞いハンドブック"に格納され、推論時のモデルインコンテキストにそれらを供給するか、教師付き微調整によってパラメータに蒸留する。
1) 振る舞い条件推論: 推論中のLLM関連の振る舞いをコンテキスト内に示すことで、基準値の一致や改善をしながら、推論トークンの数を最大46%削減する。
2) 行動誘導型自己改善:パラメータの更新がなければ、モデルは過去の問題解決の試みから行動を活用することで、将来の推論を改善する。
これにより、本質的な批判と修正のベースラインよりも最大10%高い精度が得られる。
3) 行動条件付きSFT: 行動条件付き推論トレース上のSFTは、バニラSFTと比較して非推論モデルから推論モデルに変換するのにより効果的である。
これらの結果は、遅い導出を高速な手続き的ヒントに変えることで、LCMは結論に留まらず、推論の仕方を覚えることができることを示唆している。
関連論文リスト
- ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。
本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。
DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - ReCUT: Balancing Reasoning Length and Accuracy in LLMs via Stepwise Trails and Preference Optimization [16.51303604678232]
Reasoning Compression ThroUgh Stepwise Trials (ReCUT) は推論軌道の精度と長さのバランスをとるための新しい手法である。
複数の数学推論データセットとバックボーンモデルによる実験結果から、ReCUTは推論の長さを約30~50%削減することが示された。
論文 参考訳(メタデータ) (2025-06-12T15:43:01Z) - AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking [38.8730008545358]
大規模言語モデル(LLM)は、しばしばその推論に頑健さを欠いている。
このアプローチは、推論の問題に重点を置いています。
この抽象化プロセスは、単に教師付き微調整よりも強化学習(RL)によりより良く得られる。
論文 参考訳(メタデータ) (2025-06-09T13:34:50Z) - Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs [52.663816303997194]
回答の質に影響を与える重要な要因は思考段階の長さである。
本稿では, LLM が推論の長さを理解し, 制御するメカニズムを探求し, 活用する。
以上の結果から,この「オーバークロック」手法は過度な思考を軽減し,解答精度を向上し,推論遅延を低減することが示唆された。
論文 参考訳(メタデータ) (2025-06-08T17:54:33Z) - Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation [14.489157453882767]
この研究は、推論トレースと最終的なパフォーマンスとの相関を評価することの課題に対処することを目的としている。
規則に基づく問題分解を利用して解釈可能なトレースを生成する。
具体的には、この問題を分類ステップと情報検索ステップに分解して、オープンブックQAにおけるこのアプローチを実証する。
論文 参考訳(メタデータ) (2025-05-20T00:49:19Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。