Fugu-MT 論文翻訳(概要): J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

論文の概要: J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2505.10320v2
Date: Sun, 05 Oct 2025 21:28:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 14:28:09.773236
Title: J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning
Title（参考訳）: J1:強化学習によるLLM-as-a-Judgeにおける思考のインセンティブ
Authors: Chenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha,
Abstract要約: 意思決定前にLLM審査員に思考を教えるための強化学習フレームワークであるJ1を紹介する。私たちのコアコントリビューションは、検証不可能で検証可能なプロンプトのすべての判断タスクを、検証可能な報酬を持った統一フォーマットに変換することです。次に、RLを用いて8B、32B、70Bのスケールで思考判断を訓練し、彼らが最先端のパフォーマンスを得ることを示す。
参考スコア（独自算出の注目度）: 54.85131761693927
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The progress of AI is bottlenecked by the quality of evaluation, making powerful LLM-as-a-Judge models a core solution. The efficacy of these judges depends on their chain-of-thought reasoning, creating a critical need for methods that can effectively optimize this reasoning process. In this work, we introduce J1, a reinforcement learning framework for teaching LLM judges to think before making decisions. Our core contribution lies in converting all judgment tasks for non-verifiable and verifiable prompts into a unified format with verifiable rewards, enabling direct optimization of evaluation quality while mitigating positional bias. We then use RL to train thinking-judges at scales of 8B, 32B, and 70B and show that they obtain state-of-the-art performance across multiple benchmarks. In particular, J1-Qwen-32B, our multitasked pointwise and pairwise judge also outperforms o1-mini, o3, and a much larger 671B DeepSeek-R1 on some benchmarks, while only training on synthetic data. Through comprehensive ablations of pairwise, pointwise, and multitask J1 variants, we demonstrate the effectiveness of our approach across seed prompts, reward strategies, and training recipes. Qualitative analysis reveals that J1 develops systematic evaluation strategies, including dynamic criteria generation, reference answer creation, iterative self-correction of initial assessments, and feedback generation for low-quality responses.
Abstract（参考訳）: AIの進歩は評価の質によってボトルネックを受けており、強力なLCM-as-a-Judgeモデルを中核的なソリューションにしている。これらの判断の有効性は、彼らのチェーン・オブ・ソート推論に依存しており、この推論プロセスを効果的に最適化できる方法に対する重要な必要性を生み出している。本稿では,LLM審査員に意思決定前に考えることを指導するための強化学習フレームワークであるJ1を紹介する。我々のコアコントリビューションは、検証不能かつ検証不能なプロンプトに対するすべての判断タスクを、検証可能な報酬を持つ統一フォーマットに変換し、位置バイアスを緩和しながら評価品質の直接的な最適化を可能にすることである。次に、RLを使用して8B、32B、70Bのスケールで思考判断をトレーニングし、複数のベンチマークで最先端のパフォーマンスが得られることを示す。特にJ1-Qwen-32B、マルチタスクのポイントワイド、ペアワイドのジャッジは、いくつかのベンチマークでo1-mini、o3、さらに大きな671B DeepSeek-R1よりも優れています。ペアワイズ、ポイントワイズ、マルチタスクJ1の総合的な改善を通じて、シードプロンプト、報酬戦略、トレーニングレシピにまたがるアプローチの有効性を実証する。質的分析により、J1は動的基準生成、参照応答生成、初期評価の反復自己補正、低品質応答のフィードバック生成など、体系的な評価戦略を開発することが明らかとなった。

関連論文リスト

Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning [30.906073889018728]
大きな言語モデル(LLM)は、応答品質を評価するために広く使われ、人間の評価に代わるスケーラブルな代替手段を提供する。我々は,LLM審査員を訓練するためのエンドツーエンドのRLフレームワークであるTIR-Judgeを提案し,正確な評価のためにコードエグゼキュータを統合する。
論文参考訳（メタデータ） (2025-10-27T06:03:37Z)
Do Before You Judge: Self-Reference as a Pathway to Better LLM Evaluation [22.409170147732464]
LLM-as-Judgeフレームワークは、AI評価でますます人気がある。モデルの生成と判断能力の関係に関する研究結果は相容れないままである。本稿では,モデル自身の回答を参照として活用する自己参照型評価戦略を提案する。
論文参考訳（メタデータ） (2025-09-24T08:32:45Z)
LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model [99.71684530652942]
LLaVA-Critic-R1は高い評価を受けた批評家としてだけでなく、競争政策モデルとしても現れることを示す。テスト時に自己批判を適用すると、5つの代表的な推論タスクに対して平均+13.8%の改善が得られる。その結果,評価と生成の両面において優れた統一モデルが得られることがわかった。
論文参考訳（メタデータ） (2025-08-31T03:08:02Z)
Incentivizing LLMs to Self-Verify Their Answers [20.2584779107763]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。自明な回答を自己検証するために LLM をインセンティブとするフレームワークを提案する。我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練する。
論文参考訳（メタデータ） (2025-06-02T06:54:29Z)
RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
Think-J: Learning to Think for Generative LLM-as-a-Judge [35.036953471299356]
本稿では,LLM-as-a-Judgeの考え方を学習することで,ジェネレーティブなLLM-as-a-Judgeを改善するThink-Jを提案する。本稿では,オフラインとオンラインのRLに基づく2つの判断思考最適化手法を提案する。提案手法は, ジェネレーションLLM-Judgeの評価能力を大幅に向上させることができることを示した。
論文参考訳（メタデータ） (2025-05-20T12:19:10Z)
J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。我々はReasoningJudgeBenchというベンチマークを紹介します。 EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文参考訳（メタデータ） (2025-05-19T16:50:35Z)
RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-05T06:11:12Z)
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning [55.97950660659051]
我々は(蒸留に頼らずに)強化学習による視覚言語モデルの遅い思考能力の向上を目指す。我々は、RLトレーニングにおけるロールアウトの最後に再考トリガートークンを付加し、自己回帰推論ステップを明示的に実施する強制再考(Forced Rethinking)を導入する。我々のモデルであるVL-Rethinkerは、MathVista、MathVerseの最先端スコアを80.4%、63.5%に向上させています。
論文参考訳（メタデータ） (2025-04-10T17:41:56Z)
EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta [2.1249213103048414]
本研究では,決定論的スコアと実測精度とロバストな推論評価に着目したEQUATOR評価器を提案する。ベクトルデータベースを使用して、EQUATORは人間の評価された回答とオープンエンドの質問をペアリングし、より正確でスケーラブルな評価を可能にする。この枠組みは,高精度な基準を維持しつつ,従来のマルチ選択評価を著しく上回っていることを示す。
論文参考訳（メタデータ） (2024-12-31T03:56:17Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文参考訳（メタデータ） (2024-10-11T17:25:52Z)
Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。 SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文参考訳（メタデータ） (2024-09-19T17:16:21Z)
Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。理論的には,本手法は訓練作業数のサブリニアな後悔を示す。都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文参考訳（メタデータ） (2024-08-08T14:46:01Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文参考訳（メタデータ） (2024-02-17T11:25:26Z)
Prototypical Self-Explainable Models Without Re-training [5.837536154627278]
自己説明可能なモデル(SEM)は、予測とともに説明を提供するために直接訓練される。現在のSEMは複雑なアーキテクチャと高度に規則化された損失関数を必要とするため、具体的かつコストのかかる訓練が必要である。我々は、既存の事前学習されたモデルからプロトタイプSEMに変換することができる、KMExと呼ばれる単純で効率的な普遍的手法を提案する。
論文参考訳（メタデータ） (2023-12-13T01:15:00Z)
Effective training-time stacking for ensembling of deep neural networks [1.2667973028134798]
スナップショットアンサンブルは、単一のトレーニングパスに沿ってアンサンブル内のモデルを収集する。トレーニングパスに沿ってアンサンブルメンバーを選択して重み付けすることでスナップショットアンサンブルを改善する。標準の積み重ねメソッドが行う検証サンプルエラーを考慮せずに、トレーニング時間の確率に依存する。
論文参考訳（メタデータ） (2022-06-27T17:52:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。