論文の概要: CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2507.09104v1
- Date: Sat, 12 Jul 2025 01:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.451986
- Title: CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards
- Title(参考訳): CompassJudger-2:検証リワードによる一般判決モデルに向けて
- Authors: Taolin Zhang, Maosong Cao, Alexander Lam, Songyang Zhang, Kai Chen,
- Abstract要約: CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
- 参考スコア(独自算出の注目度): 72.44810390478229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the role of LLM-as-judge in evaluating large language models has gained prominence. However, current judge models suffer from narrow specialization and limited robustness, undermining their capacity for comprehensive evaluations. In this work, we present CompassJudger-2, a novel generalist judge model that overcomes these limitations via a task-driven, multi-domain data curation strategy. Central to our approach is supervising judgment tasks with verifiable rewards, guiding intrinsic critical reasoning through rejection sampling to foster robust, generalizable judgment capabilities. We introduce a refined learning objective with margin policy gradient loss to enhance performance. Empirically, CompassJudger-2 achieves superior results across multiple judge and reward benchmarks, and our 7B model demonstrates competitive judgment accuracy with significantly larger models like DeepSeek-V3 and Qwen3-235B-A22B. Additionally, we propose JudgerBenchV2, a comprehensive benchmark evaluating cross-domain judgment accuracy and rank consistency to standardize judge model evaluation. These contributions advance robust, scalable LLM judgment and establish new performance and evaluation standards.
- Abstract(参考訳): 近年,大規模言語モデル評価におけるLLM-as-judgeの役割が注目されている。
しかし、現行の審査モデルは、限られた専門化と限定的な堅牢性に悩まされており、包括的な評価の能力が損なわれている。
本研究では,タスク駆動型マルチドメインデータキュレーション戦略により,これらの制約を克服する新しいジェネリストジャッジモデルであるCompassJudger-2を提案する。
提案手法の中心は,評価可能な報酬を伴う判断タスクの監視であり,頑健で一般化可能な判断能力を高めるために,拒否サンプリングを通じて本質的な批判的推論を導くことである。
性能向上のために、マージンポリシー勾配損失を伴う洗練された学習目標を導入する。
経験的に、CompassJudger-2は複数の判定と報酬のベンチマークで優れた結果を得ることができ、我々の7BモデルはDeepSeek-V3やQwen3-235B-A22Bのようなかなり大きなモデルと競合判定精度を示す。
さらに、判定モデル評価の標準化のために、クロスドメイン判定精度とランク整合性を評価する包括的なベンチマークであるジャスチャベンチV2を提案する。
これらの貢献は、堅牢でスケーラブルなLCM判断を前進させ、新しい性能と評価基準を確立する。
関連論文リスト
- J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。
我々はReasoningJudgeBenchというベンチマークを紹介します。
EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文 参考訳(メタデータ) (2025-05-19T16:50:35Z) - JudgeLRM: Large Reasoning Models as a Judge [65.14085339820795]
我々は,Large Language Models (LLMs) の判断が推論能力の強化から真に恩恵を受けるかどうかを考察する。
本稿では、強化学習(RL)を用いて学習した判断指向LLMのファミリーであるジャッジLRMを紹介する。
論文 参考訳(メタデータ) (2025-03-31T02:18:51Z) - DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering [12.879551933541345]
大規模言語モデル評価のための動的アロケーションフレームワーク(DAFE)を提案する。
DAFEは2つの主要なLCM-as-judgesを採用し、不一致の場合のみ第3の仲裁を行う。
DAFEが一貫した、スケーラブルで、リソース効率の高いアセスメントを提供する能力を示す。
論文 参考訳(メタデータ) (2025-03-11T15:29:55Z) - Know Thy Judge: On the Robustness Meta-Evaluation of LLM Safety Judges [3.168632659778101]
我々は、一般的に見落とされがちな2つの重要な課題について強調する: (i) 迅速な感度や分布シフトなどの要因がパフォーマンスに影響を及ぼす野生における評価、(ii) 裁判官を標的とする敵攻撃。
モデル出力のスタイルなどの小さな変更は、同じデータセット上の偽陰性率で最大0.24のジャンプを引き起こす可能性がある一方で、モデル生成に対する敵対的な攻撃は、一部の裁判官を騙して、有害な世代を100%安全なものと誤分類する可能性があることを示す。
論文 参考訳(メタデータ) (2025-03-06T14:24:12Z) - Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。
既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。
本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T04:50:43Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。