論文の概要: J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.10320v1
- Date: Thu, 15 May 2025 14:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.348095
- Title: J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning
- Title(参考訳): J1:強化学習によるLLM-as-a-Judgeにおける思考のインセンティブ
- Authors: Chenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha,
- Abstract要約: このようなモデルをトレーニングするための強化学習アプローチであるJ1を紹介する。
本手法は,判断バイアスを軽減し,思考にインセンティブを与える検証可能な報酬を用いて,検証可能なプロンプトと検証不可能なプロンプトの両方を判断タスクに変換する。
評価基準を概説し、自己生成した基準回答と比較し、モデル応答の正しさを再評価することにより、モデルがより良い判断を下すことが判明した。
- 参考スコア(独自算出の注目度): 69.14405906946634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The progress of AI is bottlenecked by the quality of evaluation, and powerful LLM-as-a-Judge models have proved to be a core solution. Improved judgment ability is enabled by stronger chain-of-thought reasoning, motivating the need to find the best recipes for training such models to think. In this work we introduce J1, a reinforcement learning approach to training such models. Our method converts both verifiable and non-verifiable prompts to judgment tasks with verifiable rewards that incentivize thinking and mitigate judgment bias. In particular, our approach outperforms all other existing 8B or 70B models when trained at those sizes, including models distilled from DeepSeek-R1. J1 also outperforms o1-mini, and even R1 on some benchmarks, despite training a smaller model. We provide analysis and ablations comparing Pairwise-J1 vs Pointwise-J1 models, offline vs online training recipes, reward strategies, seed prompts, and variations in thought length and content. We find that our models make better judgments by learning to outline evaluation criteria, comparing against self-generated reference answers, and re-evaluating the correctness of model responses.
- Abstract(参考訳): AIの進歩は評価の質によってボトルネックを受けており、強力なLCM-as-a-Judgeモデルが中核的なソリューションであることが証明されている。
判断能力の向上は、より強力なチェーン・オブ・シント推論によって実現され、そのようなモデルを思考するための最良のレシピを見つける必要性を動機付けている。
本研究では、そのようなモデルをトレーニングするための強化学習アプローチであるJ1を紹介する。
本手法は,判断バイアスを軽減し,思考にインセンティブを与える検証可能な報酬を用いて,検証可能なプロンプトと検証不可能なプロンプトの両方を判断タスクに変換する。
特に、私たちのアプローチは、DeepSeek-R1から抽出したモデルを含む、既存の8Bまたは70Bモデルよりも優れています。
J1はまた、より小さなモデルをトレーニングしているにもかかわらず、いくつかのベンチマークでo1-miniやR1よりも優れています。
我々は、Pairwise-J1モデルとPointwise-J1モデルの比較、オフラインとオンラインのトレーニングレシピ、報酬戦略、シードプロンプト、思考の長さと内容のバリエーションについて分析および改善を行った。
評価基準を概説し、自己生成した基準回答と比較し、モデル応答の正しさを再評価することにより、モデルがより良い判断を下すことが判明した。
関連論文リスト
- SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。
理論的には,本手法は訓練作業数のサブリニアな後悔を示す。
都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文 参考訳(メタデータ) (2024-08-08T14:46:01Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Effective training-time stacking for ensembling of deep neural networks [1.2667973028134798]
スナップショットアンサンブルは、単一のトレーニングパスに沿ってアンサンブル内のモデルを収集する。
トレーニングパスに沿ってアンサンブルメンバーを選択して重み付けすることでスナップショットアンサンブルを改善する。
標準の積み重ねメソッドが行う検証サンプルエラーを考慮せずに、トレーニング時間の確率に依存する。
論文 参考訳(メタデータ) (2022-06-27T17:52:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。