論文の概要: Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation
- arxiv url: http://arxiv.org/abs/2603.00546v1
- Date: Sat, 28 Feb 2026 08:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.25595
- Title: Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation
- Title(参考訳): 機能指向ベンチマークとMCTS駆動データ生成によるマルチモーダル判断モデルの改善
- Authors: Zeyu Chen, Huanjin Yao, Ziwang Zhao, Min Yang,
- Abstract要約: M-JudgeBenchはMLLMの判断能力を総合的に評価する能力指向のベンチマークである。
judge-MCTSはデータ構築フレームワークであり、様々な正確さと長さのペアの推論軌道を生成する。
本研究は,MLLM-as-a-judgeをM-JudgeBench および judge-MCTS フレームワークで評価するための,より原則化された基盤を確立する。
- 参考スコア(独自算出の注目度): 20.16938320120462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using Multimodal Large Language Models (MLLMs) as judges to achieve precise and consistent evaluations has gradually become an emerging paradigm across various domains. Evaluating the capability and reliability of MLLM-as-a-judge systems is therefore essential for ensuring trustworthy assessment. Existing judge benchmarks categorize samples by task types but fail to capture the fundamental judgment capabilities required for reliable evaluation. In this work, we introduce M-JudgeBench, a ten-dimensional capability-oriented benchmark designed to comprehensively assess the judgment abilities of MLLMs. Our benchmark decomposes evaluation into pairwise Chain-of-Thought (CoT) comparison, length bias avoidance, and process error detection tasks, jointly covering ten fine-grained subtasks. This design enables diagnosis of model reliability across reasoning styles, response lengths, and cross-model variations. Systematic evaluation uncovers the systematic weaknesses in existing MLLM-as-a-judge systems. To address this issue, we further propose Judge-MCTS, a data construction framework generating pairwise reasoning trajectories with various correctness and length. Using Judge-MCTS, we construct an MCTS-augmented dataset and train M-Judger, a series of strong judge models. Extensive experiments demonstrate the superiority of M-Judger on existing judge benchmarks as well as M-JudgeBench. Overall, our work establishes a more principled foundation for evaluating MLLM-as-a-judge through M-JudgeBench and Judge-MCTS framework, paving the way for future research on judge model evaluation and capability-driven judge training.
- Abstract(参考訳): 判断にMLLM(Multimodal Large Language Models)を用いることで、正確で一貫した評価が、次第に様々な領域にまたがる新たなパラダイムになりつつある。
したがって、MLLM-as-a-judgeシステムの性能と信頼性を評価することは、信頼できる評価の確保に不可欠である。
既存の判定ベンチマークでは、サンプルをタスクタイプによって分類するが、信頼性評価に必要な基本的な判断能力の取得に失敗する。
本研究では,MLLMの判断能力を総合的に評価する10次元能力指向ベンチマークであるM-JudgeBenchを紹介する。
本ベンチマークでは,2段階比較,長さバイアス回避,プロセスエラー検出タスクに分解し,10種類の微粒なサブタスクを共同でカバーする。
この設計により、推論スタイル、応答長、モデル間のバリエーションをまたいだモデルの信頼性の診断が可能となる。
システム評価は既存のMLLM-as-a-judgeシステムの系統的弱点を明らかにする。
この問題に対処するために、さまざまな正確さと長さのペア推論軌道を生成するデータ構築フレームワークであるJice-MCTSを提案する。
judge-MCTSを用いて、MCTS拡張データセットを構築し、一連の強力な判断モデルであるM-Judgerを訓練する。
大規模な実験は、M-JudgeBenchと同様に既存の審査ベンチマークにおけるM-Judgerの優位性を実証している。
M-JudgeBench と judge-MCTS フレームワークを通じてMLLM-as-a-judge を評価するためのより原則的な基盤を確立し,審査モデル評価と能力駆動型判断訓練の今後の研究の道を開く。
関連論文リスト
- IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - Who can we trust? LLM-as-a-jury for Comparative Assessment [42.32900791516691]
大規模言語モデル(LLM)は、自然言語生成評価のための自動評価器として、ますます採用されている。
LLMの判断はタスクや側面によって大きく異なるが、その判断確率は偏りがあり矛盾する可能性がある。
我々は,各審査員がアイテムランキングを共同で推定し,ペア比較だけで信頼性を判断する識別パラメータを導入する,Bradley-Terryモデルの拡張であるBT-sigmaを提案する。
論文 参考訳(メタデータ) (2026-02-18T17:04:02Z) - Who Judges the Judge? LLM Jury-on-Demand: Building Trustworthy LLM Evaluation Systems [2.9141470183751674]
スケーラブルでコンテキスト対応な評価のための動的学習ベースのフレームワークを提案する。
本手法は,LLM審査員が人間専門家といつ一致するかを評価するために,信頼度予測器のセットを訓練する。
要約およびRAGベンチマーク実験により,我々の動的陪審法は,単一判定基準と静的判定基準の両方よりも,人間の判断との相関が著しく高いことを示した。
論文 参考訳(メタデータ) (2025-12-01T15:26:20Z) - JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation [13.831735556002426]
小型言語モデル(SLM)は様々な推論タスクを約束している。
解答の正しさを判断する能力は、大言語モデル(LLM)と比較しても明らかでない。
論文 参考訳(メタデータ) (2025-11-20T01:14:39Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges [13.957207630090064]
ProJudgeBenchはMLLMベースのプロセス判断器の能力を評価するために設計された最初のベンチマークである。
ProJudgeBenchは2,400件のテストケースと50,118件のステップレベルラベルで構成され、4つの科学分野にまたがっている。
ProJudgeBenchの評価は、オープンソースのモデルとプロプライエタリなモデルの間の大きなパフォーマンスギャップを明らかにしている。
論文 参考訳(メタデータ) (2025-03-09T10:55:51Z) - Validating LLM-as-a-Judge Systems under Rating Indeterminacy [65.137380612741]
評価の不確定性の下でLLM-as-a-judgeシステムを検証するための枠組みを提案する。
本研究では, 強制選択評価指示に応答する際の評価の不確定性を人間とLLMがどう解決するかの相違が, 偏見の検証に大きく寄与することを示した。
論文 参考訳(メタデータ) (2025-03-07T22:09:47Z) - Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。
既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。
本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T04:50:43Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。