論文の概要: ICRL: Learning to Internalize Self-Critique with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.15224v1
- Date: Wed, 13 May 2026 08:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.013067
- Title: ICRL: Learning to Internalize Self-Critique with Reinforcement Learning
- Title(参考訳): ICRL:強化学習による自己批判を内部化するための学習
- Authors: Jianbo Lin, Xiaomin Yu, Yi Xin, Yifu Guo, Zhuosong Jiang, Zhongqi Yue, Weishi Wang, Heqing Zou, Chengwei Qin, Hui Xiong,
- Abstract要約: 大規模な言語モデルベースのエージェントは間違いを犯すが、批判はしばしば同じモデルを正しい行動へと導く。
凍結した批評家は、時間とともにフィードバックの品質を改善することができず、反復的な自己改善の可能性を制限する。
本稿では,自己批判を補強学習で学ぶことを提案する。これは,問題解決者と批判者を共有バックボーンから共同で訓練する新しい枠組みである。
- 参考スコア(独自算出の注目度): 29.197505133648047
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language model-based agents make mistakes, yet critique can often guide the same model toward correct behavior. However, when critique is removed, the model may fail again on the same query, indicating that it has not internalized the critique's guidance into its underlying capability. Meanwhile, a frozen critic cannot improve its feedback quality over time, limiting the potential for iterative self-improvement. To address this, we propose learning to internalize self-critique with reinforcement learning(ICRL), a novel framework that jointly trains a solver and a critic from a shared backbone to convert critique-induced success into unassisted solver ability. The critic is rewarded based on the solver's subsequent performance gain, incentivizing actionable feedback. To address the distribution shift between critique-conditioned and critique-free behavior, ICRL introduces a distribution-calibration re-weighting ratio that selectively transfers critique-guided improvements compatible with the solver's own prompt distribution. Additionally, a role-wise group advantage estimation stabilizes joint optimization across the two roles. Together, these mechanisms ensure that the solver learns to improve itself without external critique, rather than becoming dependent on critique-conditioned behavior. We evaluate ICRL on diverse benchmarks spanning agentic and mathematical reasoning tasks, using Qwen3-4B and Qwen3-8B as backbones. Results show consistent improvements, with average gains of 6.4 points over GRPO on agentic tasks, and 7.0 points on mathematical reasoning. Notably, the learned 8B critic is comparable to 32B critics while using substantially fewer tokens. The code is available at https://github.com/brick-pid/ICRL.
- Abstract(参考訳): 大規模な言語モデルベースのエージェントは間違いを犯すが、批判はしばしば同じモデルを正しい行動へと導く。
しかし、批判が削除された場合、モデルは同じクエリで再び失敗する可能性があるため、批判のガイダンスを根底にある能力に内部化していないことを示している。
一方、凍結した批評家は、時間とともにフィードバックの品質を改善することができず、反復的な自己改善の可能性を制限する。
そこで我々は,自己批判を強化学習(ICRL)で内部化する学習を提案する。これは,自己批判による成功を非支援的解決能力に変換するために,問題解決者と評論家を共有バックボーンから共同訓練する新しい枠組みである。
批評家は、解決者のその後のパフォーマンス向上に基づいて報酬を受け取り、実用的なフィードバックのインセンティブを与える。
ICRLは、批判条件付きと批判自由な行動間の分布シフトに対処するため、問題解決者自身のプロンプト分布と互換性のある批判誘導改善を選択的に転送する分布校正再重み付け比を導入する。
さらに、ロールワイドなグループ優位性推定は、2つのロール間での関節最適化を安定化させる。
これらのメカニズムは、解決者が批判条件に依存するのではなく、外部の批判なしに自分自身を改善することを学ぶことを確実にする。
エージェントおよび数学的推論タスクにまたがる多様なベンチマークにおいて, ICRL をバックボーンとして Qwen3-4B と Qwen3-8B を用いて評価した。
結果は一貫した改善を示し、GRPOでは平均6.4ポイント、数学的推論では7.0ポイントだった。
特に、学習した8B批判は32B批判に匹敵するが、トークンは極めて少ない。
コードはhttps://github.com/brick-pid/ICRLで公開されている。
関連論文リスト
- Conversation for Non-verifiable Learning: Self-Evolving LLMs through Meta-Evaluation [56.84819098277464]
CoNLは、マルチエージェントのセルフプレイを通じて生成、評価、メタ評価を統合するフレームワークである。
CoNLは、安定したトレーニングを維持しながら、自己回帰ベースラインよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2026-01-29T09:41:14Z) - Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning [89.60378227969643]
より強力な監督を伴わないクオリティク言語モデルを開発するためのオンラインRLアプローチであるCrytique-RLを提案する。
提案手法は,アクターが応答を生成し,批評家がフィードバックを提供し,アクターがそれに応じて応答を洗練する,という2段階のパラダイムに基づいている。
さまざまなタスクやモデルに対する実験では、Cristique-RLが大幅なパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2025-10-28T11:37:01Z) - Training Language Model to Critique for Better Refinement [58.73039433159486]
textbfRefinement-oriented textbfCritique textbfOptimization (RCO)を導入する。
RCOは、批評家モデルによって生成された批評がアクターモデルに応答を洗練させるためのフィードバックループを使用する。
より良い改善につながる批判に焦点を当てることで、RCOは直接的な批判的嗜好評価の必要性を排除している。
論文 参考訳(メタデータ) (2025-06-27T12:10:57Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning [112.35483894933904]
我々は,LVLMの細粒度評価と補正能力を広範囲に解析する最初のベンチマークであるVISCOを提案する。
VISCOは密度が高くきめ細かな批判を特徴とし、LVLMは各ステップの正しさを評価する必要がある。
LookBackは、批評と修正のパフォーマンスを最大13.5%改善する。
論文 参考訳(メタデータ) (2024-12-03T05:04:49Z) - CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。
生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文 参考訳(メタデータ) (2024-02-22T18:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。