論文の概要: RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback
- arxiv url: http://arxiv.org/abs/2507.15024v1
- Date: Sun, 20 Jul 2025 16:19:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.163035
- Title: RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback
- Title(参考訳): RefCritic:リファインメントフィードバックによる長鎖批判モデルのトレーニング
- Authors: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun, Junyang Lin,
- Abstract要約: RefCriticは、二重ルールベースの報酬による強化学習に基づく、長鎖の批判モジュールである。
我々は5つのベンチマークでQwen2.5-14BとDeepSeek-R1-Distill-Qwen-14BのRefCriticを評価した。
- 参考スコア(独自算出の注目度): 57.967762383794806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of Large Language Models (LLMs), developing effective critic modules for precise guidance has become crucial yet challenging. In this paper, we initially demonstrate that supervised fine-tuning for building critic modules (which is widely adopted in current solutions) fails to genuinely enhance models' critique abilities, producing superficial critiques with insufficient reflections and verifications. To unlock the unprecedented critique capabilities, we propose RefCritic, a long-chain-of-thought critic module based on reinforcement learning with dual rule-based rewards: (1) instance-level correctness of solution judgments and (2) refinement accuracies of the policy model based on critiques, aiming to generate high-quality evaluations with actionable feedback that effectively guides model refinement. We evaluate RefCritic on Qwen2.5-14B-Instruct and DeepSeek-R1-Distill-Qwen-14B across five benchmarks. On critique and refinement settings, RefCritic demonstrates consistent advantages across all benchmarks, e.g., 6.8\% and 7.2\% gains on AIME25 for the respective base models. Notably, under majority voting, policy models filtered by RefCritic show superior scaling with increased voting numbers. Moreover, despite training on solution-level supervision, RefCritic outperforms step-level supervised approaches on ProcessBench, a benchmark to identify erroneous steps in mathematical reasoning.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩により、正確なガイダンスのための効果的な批判モジュールの開発は極めて難しいものとなっている。
本稿では、まず、批判モジュール(現在のソリューションで広く採用されている)構築のための教師付き微調整が、モデルの批評能力を真に向上することができず、反射や検証が不十分な表面的批評を生成することを実証する。
前例のない批判的能力を解き放つために, 二重規則に基づく強化学習に基づく長鎖批判モジュールRefCriticを提案する。(1) 解判定のインスタンスレベルの正当性, (2) 批判に基づく政策モデルの修正精度, モデル修正を効果的に導く実用的なフィードバックによる高品質な評価を生成することを目的としている。
我々は5つのベンチマークでQwen2.5-14BとDeepSeek-R1-Distill-Qwen-14BのRefCriticを評価した。
批判的かつ洗練された設定では、RefCritic は各ベースモデルに対して AIME25 で 6.8 % と 7.2 % の利得をすべてのベンチマークで一貫した優位性を示す。
特に多数決では、RefCriticによってフィルタリングされたポリシーモデルは、投票数の増加とともに優れたスケーリングを示している。
さらに、RefCriticは、ソリューションレベルの監視のトレーニングにもかかわらず、数学的推論における誤ったステップを特定するベンチマークであるProcessBenchにおいて、ステップレベルの監視アプローチよりも優れています。
関連論文リスト
- Training Language Model to Critique for Better Refinement [58.73039433159486]
textbfRefinement-oriented textbfCritique textbfOptimization (RCO)を導入する。
RCOは、批評家モデルによって生成された批評がアクターモデルに応答を洗練させるためのフィードバックループを使用する。
より良い改善につながる批判に焦点を当てることで、RCOは直接的な批判的嗜好評価の必要性を排除している。
論文 参考訳(メタデータ) (2025-06-27T12:10:57Z) - DeepCritic: Deliberate Critique with Large Language Models [77.5516314477878]
我々は,Large Language Models(LLMs)の数学批判能力の研究と向上に焦点をあてる。
Qwen2.5-7B-Instructをベースとした批判モデルを開発した。
論文 参考訳(メタデータ) (2025-05-01T17:03:17Z) - Teaching Language Models to Critique via Reinforcement Learning [59.36253627145115]
我々は、textttCTRL$でトレーニングされた批評家が、パスレートを大幅に向上し、ベースモデルとより強力なジェネレータモデルの両方でエラーを軽減することを示した。
また、これらの批判モデルが正確な生成報酬モデルとして機能し、反復的批評・修正によるテストタイムスケーリングを可能にすることを示す。
論文 参考訳(メタデータ) (2025-02-05T02:18:46Z) - RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Self-Generated Critiques Boost Reward Modeling for Language Models [57.60881438647227]
Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。
実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
論文 参考訳(メタデータ) (2024-11-25T18:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。