論文の概要: Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.24320v1
- Date: Tue, 28 Oct 2025 11:37:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.094509
- Title: Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning
- Title(参考訳): 評論-RL:二段階強化学習による評論のための訓練言語モデル
- Authors: Zhiheng Xi, Jixuan Huang, Xin Guo, Boyang Hong, Dingwen Yang, Xiaoran Fan, Shuo Li, Zehui Chen, Junjie Ye, Siyu Yuan, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: より強力な監督を伴わないクオリティク言語モデルを開発するためのオンラインRLアプローチであるCrytique-RLを提案する。
提案手法は,アクターが応答を生成し,批評家がフィードバックを提供し,アクターがそれに応じて応答を洗練する,という2段階のパラダイムに基づいている。
さまざまなタスクやモデルに対する実験では、Cristique-RLが大幅なパフォーマンス改善を実現している。
- 参考スコア(独自算出の注目度): 89.60378227969643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training critiquing language models to assess and provide feedback on model outputs is a promising way to improve LLMs for complex reasoning tasks. However, existing approaches typically rely on stronger supervisors for annotating critique data. To address this, we propose Critique-RL, an online RL approach for developing critiquing language models without stronger supervision. Our approach operates on a two-player paradigm: the actor generates a response, the critic provides feedback, and the actor refines the response accordingly. We first reveal that relying solely on indirect reward signals from the actor's outputs for RL optimization often leads to unsatisfactory critics: while their helpfulness (i.e., providing constructive feedback) improves, the discriminability (i.e., determining whether a response is high-quality or not) remains poor, resulting in marginal performance gains. To overcome this, Critique-RL adopts a two-stage optimization strategy. In stage I, it reinforces the discriminability of the critic with direct rule-based reward signals; in stage II, it introduces indirect rewards based on actor refinement to improve the critic's helpfulness, while maintaining its discriminability via appropriate regularization. Extensive experiments across various tasks and models show that Critique-RL delivers substantial performance improvements. For example, it achieves a 9.02% gain on in-domain tasks and a 5.70% gain on out-of-domain tasks for Qwen2.5-7B, highlighting its potential.
- Abstract(参考訳): モデル出力の評価とフィードバックを提供するために、言語モデルを訓練することは、複雑な推論タスクのためにLLMを改善するための有望な方法である。
しかし、既存のアプローチは一般的に、批判データに注釈をつけるためにより強力なスーパーバイザーに依存している。
これを解決するために、より強力な監督を伴わないクオリティク言語モデルを開発するためのオンラインRLアプローチであるCristique-RLを提案する。
提案手法は,アクターが応答を生成し,批評家がフィードバックを提供し,アクターがそれに応じて応答を洗練する,という2段階のパラダイムに基づいている。
まず、RL最適化のためのアクターの出力からの間接的な報酬信号のみに依存すると、しばしば不満足な批判を招き、その有用性(建設的フィードバックの提供)が向上する一方で、識別性(応答が高品質かどうかを判断する)が低下し、性能の限界が生じる。
これを解決するために、Cristique-RLは2段階最適化戦略を採用している。
ステージIでは、批評家の差別性を直接ルールに基づく報酬信号で強化し、ステージIIでは、アクターの洗練に基づく間接報酬を導入し、批評家の利便性を改善しつつ、適切な正規化を通じて差別性を維持する。
さまざまなタスクやモデルにわたる大規模な実験は、Cristique-RLが大幅なパフォーマンス改善を実現していることを示している。
例えば、ドメイン内タスクで9.02%、Qwen2.5-7Bでドメイン外タスクで5.70%、その可能性を強調している。
関連論文リスト
- LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model [99.71684530652942]
LLaVA-Critic-R1は高い評価を受けた批評家としてだけでなく、競争政策モデルとしても現れることを示す。
テスト時に自己批判を適用すると、5つの代表的な推論タスクに対して平均+13.8%の改善が得られる。
その結果,評価と生成の両面において優れた統一モデルが得られることがわかった。
論文 参考訳(メタデータ) (2025-08-31T03:08:02Z) - RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback [57.967762383794806]
RefCriticは、二重ルールベースの報酬による強化学習に基づく、長鎖の批判モジュールである。
我々は5つのベンチマークでQwen2.5-14BとDeepSeek-R1-Distill-Qwen-14BのRefCriticを評価した。
論文 参考訳(メタデータ) (2025-07-20T16:19:51Z) - Training Language Model to Critique for Better Refinement [58.73039433159486]
textbfRefinement-oriented textbfCritique textbfOptimization (RCO)を導入する。
RCOは、批評家モデルによって生成された批評がアクターモデルに応答を洗練させるためのフィードバックループを使用する。
より良い改善につながる批判に焦点を当てることで、RCOは直接的な批判的嗜好評価の必要性を排除している。
論文 参考訳(メタデータ) (2025-06-27T12:10:57Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。