論文の概要: RLAC: Reinforcement Learning with Adversarial Critic for Free-Form Generation Tasks
- arxiv url: http://arxiv.org/abs/2511.01758v1
- Date: Mon, 03 Nov 2025 17:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.344915
- Title: RLAC: Reinforcement Learning with Adversarial Critic for Free-Form Generation Tasks
- Title(参考訳): RLAC:自由生成タスクに対する逆批判を用いた強化学習
- Authors: Mian Wu, Gavin Zhang, Sewon Min, Sergey Levine, Aviral Kumar,
- Abstract要約: オープンエンド生成タスクは、多様でしばしば暗黙的なタスク固有の評価ルーブリックを満たすために出力を必要とする。
関連するルーリックの数が多ければ多いほど、極めて高い検証コストと応答の不完全な評価につながる。
RLAC(Reinforcement Learning with Adrial Critic, Reinforcement Learning with Adrial Critic)を提案する。
- 参考スコア(独自算出の注目度): 75.52891348667491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-ended generation tasks require outputs to satisfy diverse and often implicit task-specific evaluation rubrics. The sheer number of relevant rubrics leads to prohibitively high verification costs and incomplete assessments of a response, making reinforcement learning (RL) post-training with rubric-based rewards difficult to scale. This problem is exacerbated by the fact that often the best way to combine these rubrics into one single reward is also highly prompt-specific. We propose Reinforcement Learning with Adversarial Critic (RLAC), a post-training approach that addresses these challenges via dynamic rubric verification. Our approach employs a large language model (LLM) as a critic that dynamically identifies only the most likely failure modes (e.g., a factual error or unhandled edge case), which are then verified by an external validator to optimize both generator and critic jointly. By training both the generator and the critic, this game enhances the critic's error detection and the generator's output quality while reducing required verifications. Our experiments demonstrate that RLAC improves factual accuracy in text generation and correctness in code generation, while also outperforming exhaustive verification and reward model methods. We show that dynamic critics are more effective than fixed critics, showcasing the potential of RLAC for scaling RL post-training to free-form generation tasks.
- Abstract(参考訳): オープンエンド生成タスクは、多様でしばしば暗黙的なタスク固有の評価ルーブリックを満たすために出力を必要とする。
関連するルーリックの数が多ければ多いほど、高い検証コストや応答の不完全な評価が厳しくなり、強化学習(RL)をルーリックベースの報酬による後学習をスケールしにくくする。
この問題は、しばしばこれらのルーリックを一つの報酬にまとめる最良の方法は、非常に急進的なものであるという事実によって悪化する。
本稿では,動的ルーリック検証を通じてこれらの課題に対処するポストトレーニングアプローチであるReinforcement Learning with Adversarial Critic (RLAC)を提案する。
提案手法では, 大規模言語モデル (LLM) を用いて, 最も起こりそうな障害モード (例えば, 事実エラーや未処理エッジケース) のみを動的に識別し, 外部検証器で検証し, ジェネレータと批評家の双方を協調的に最適化する。
ジェネレータと批評家の両方を訓練することにより、このゲームは批評家のエラー検出とジェネレータの出力品質を高め、必要な検証を低減させる。
実験の結果、RLACはテキスト生成の精度とコード生成の正確さを向上し、また、徹底的な検証と報酬モデル手法よりも優れていることがわかった。
動的批判は固定的な批判者よりも効果的であることを示し、RL後の学習を自由形式生成タスクに拡張するRLACの可能性を示している。
関連論文リスト
- Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning [89.60378227969643]
より強力な監督を伴わないクオリティク言語モデルを開発するためのオンラインRLアプローチであるCrytique-RLを提案する。
提案手法は,アクターが応答を生成し,批評家がフィードバックを提供し,アクターがそれに応じて応答を洗練する,という2段階のパラダイムに基づいている。
さまざまなタスクやモデルに対する実験では、Cristique-RLが大幅なパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2025-10-28T11:37:01Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Training Language Model to Critique for Better Refinement [58.73039433159486]
textbfRefinement-oriented textbfCritique textbfOptimization (RCO)を導入する。
RCOは、批評家モデルによって生成された批評がアクターモデルに応答を洗練させるためのフィードバックループを使用する。
より良い改善につながる批判に焦点を当てることで、RCOは直接的な批判的嗜好評価の必要性を排除している。
論文 参考訳(メタデータ) (2025-06-27T12:10:57Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - Teaching Language Models to Critique via Reinforcement Learning [59.36253627145115]
我々は、textttCTRL$でトレーニングされた批評家が、パスレートを大幅に向上し、ベースモデルとより強力なジェネレータモデルの両方でエラーを軽減することを示した。
また、これらの批判モデルが正確な生成報酬モデルとして機能し、反復的批評・修正によるテストタイムスケーリングを可能にすることを示す。
論文 参考訳(メタデータ) (2025-02-05T02:18:46Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。