論文の概要: Cog-Rethinker: Hierarchical Metacognitive Reinforcement Learning for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2510.15979v1
- Date: Mon, 13 Oct 2025 08:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.742042
- Title: Cog-Rethinker: Hierarchical Metacognitive Reinforcement Learning for LLM Reasoning
- Title(参考訳): Cog-Rethinker:LLM推論のための階層的メタ認知強化学習
- Authors: Zexu Sun, Yongcheng Zeng, Erxue Min, Heyang Gao, Bokai Ji, Xu Chen,
- Abstract要約: LLM推論のための新しい階層的メタ認知的RLフレームワークであるCog-Rethinkerを提案する。
我々のCog-Rethinkerは主にRLトレーニングのロールアウト手順に焦点を当てています。
問題解決において人間の認識を活用することにより、ゼロ精度の問題をサブプロブレムに分解するようポリシーに促す。
- 参考スコア(独自算出の注目度): 14.57256913655025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary progress in large language models (LLMs) has revealed notable inferential capacities via reinforcement learning (RL) employing verifiable reward, facilitating the development of O1 and R1-like reasoning models. Directly training from base models with RL is called zero-RL. However, previous works rely upon activating LLMs' inherent capacities through fixed prompt templates. This strategy introduces substantial sampling inefficiencies for weak LLMs, as the majority of problems generate invalid outputs during accuracy-driven filtration in reasoning tasks, which causes a waste of samples. To solve this issue, we propose Cog-Rethinker, a novel hierarchical metacognitive RL framework for LLM reasoning. Our Cog-Rethinker mainly focuses on the rollout procedure in RL training. After the direct rollout, our Cog-Rethinker improves sample utilization in a hierarchical metacognitive two-stage framework. By leveraging human cognition during solving problems, firstly, it prompts policy to decompose zero-accuracy problems into subproblems to produce final reasoning results. Secondly, with zero-accuracy problems in previous rollout stage, it further prompts policy to refine these answers by referencing previous wrong solutions. Moreover, to enable cold-start of the two new reasoning patterns and maintain train-test consistency across prompt templates, our Cog-Rethinker applies supervised fine-tuning on the policy using correct samples of the two stages with direct rollout template. Experimental results demonstrate Cog-Rethinker's superior performance on various mathematical reasoning benchmarks, we also analyzed its improved sample efficiency that accelerates convergence compared to baseline methods.
- Abstract(参考訳): 大規模言語モデル(LLM)の現代的進歩は、検証可能な報酬を用いた強化学習(RL)による顕著な推論能力を明らかにし、O1やR1のような推論モデルの開発を容易にしている。
RL を用いたベースモデルからの直接訓練は 0-RL と呼ばれる。
しかし、以前の研究は、固定されたプロンプトテンプレートを通してLLM固有の容量を活性化することに依存していた。
この戦略は、多くの問題が推論タスクにおいて精度駆動のフィルタリング中に不正な出力を生成し、サンプルの無駄を引き起こすため、弱いLLMに対してかなりのサンプリング非効率をもたらす。
この問題を解決するために,LLM推論のための新しい階層的メタ認知的RLフレームワークであるCog-Rethinkerを提案する。
我々のCog-Rethinkerは主にRLトレーニングのロールアウト手順に焦点を当てています。
直接ロールアウト後、我々のCog-Rethinkerは階層的メタ認知二段階フレームワークにおけるサンプル利用を改善する。
問題解決において人間の認識を活用することにより、まず、ゼロ精度問題をサブプロブレムに分解して最終的な推論結果を生成する政策を促す。
第二に、前回のロールアウト段階でのゼロ精度の問題により、以前の間違った解を参照することによって、これらの解を洗練させるポリシーがさらに促される。
さらに,2つの新しい推論パターンのコールドスタートを可能とし,プロンプトテンプレート間の列車テスト一貫性を維持するために,我々のCog-Rethinkerでは,直接ロールアウトテンプレートを用いた2つのステージの正しいサンプルを用いて,ポリシーの教師付き微調整を適用した。
実験により,Cog-Rethinkerの様々な数学的推論ベンチマークにおける優れた性能を示すとともに,ベースライン法と比較して収束を加速する改良されたサンプル効率を解析した。
関連論文リスト
- CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment [44.33395106709674]
RLVR(Reinforcement Learning with Verifiable Rewards)は、ルールベースのバイナリフィードバックを使用することで、LLM(Large Language Models)の推論能力を改善した。
現在のRLVRメソッドは、通常、すべてのトークンに同じ報酬を割り当てる。
この粗い粒度のフィードバックは、正確なクレジット割り当てを妨げ、モデルがどの推論ステップが成功または失敗につながるかを特定するのが難しくなる。
論文 参考訳(メタデータ) (2025-08-04T11:06:08Z) - Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning [10.255235456427037]
大規模言語モデル(LLM)における簡潔推論を実現するための簡易かつ効果的な2段階強化学習フレームワークを提案する。
最初の段階は、より多くのトレーニングステップを使用して、グループ相対ポリシー最適化を通じてモデルの推論能力をインセンティブ化することを目的としています。
第2段階は、より少ないトレーニングステップを使用して、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimizationを通じて効率を向上させる。
論文 参考訳(メタデータ) (2025-05-27T13:29:51Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking [39.48406368755411]
大言語モデル(LLM)がRLLM(Reasoning Large Language Models)を導入
RLLMは、訓練から得られる自然的連鎖起因性(CoT)推論能力を示し、自然な疑問に繋がる:「CoTは、RLLMの推論能力を高めるために必要か?」。
本稿では,Zero-shot CoT と Few-shot CoT が数理推論タスクにおける RLLM に与える影響を初めて包括的に解析する。
論文 参考訳(メタデータ) (2025-03-25T12:37:22Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。