論文の概要: MR. Judge: Multimodal Reasoner as a Judge
- arxiv url: http://arxiv.org/abs/2505.13403v1
- Date: Mon, 19 May 2025 17:37:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.778792
- Title: MR. Judge: Multimodal Reasoner as a Judge
- Title(参考訳): MR.審査員:裁判官としてのマルチモーダル推論者
- Authors: Renjie Pi, Felix Bai, Qibin Chen, Simon Wang, Jiulong Shan, Kieran Liu, Meng Cao,
- Abstract要約: 本稿では,Multimodal Reasoner as a judge (MR. judge) を提案する。
各応答にスコアを直接割り当てる代わりに、判断過程を推論に着想を得た多重選択問題として定式化する。
この推論プロセスは、判断の解釈性を向上するだけでなく、MLLM審査員のパフォーマンスを大幅に向上させる。
- 参考スコア(独自算出の注目度): 23.787019892923784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paradigm of using Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) as evaluative judges has emerged as an effective approach in RLHF and inference-time scaling. In this work, we propose Multimodal Reasoner as a Judge (MR. Judge), a paradigm for empowering general-purpose MLLMs judges with strong reasoning capabilities. Instead of directly assigning scores for each response, we formulate the judgement process as a reasoning-inspired multiple-choice problem. Specifically, the judge model first conducts deliberate reasoning covering different aspects of the responses and eventually selects the best response from them. This reasoning process not only improves the interpretibility of the judgement, but also greatly enhances the performance of MLLM judges. To cope with the lack of questions with scored responses, we propose the following strategy to achieve automatic annotation: 1) Reverse Response Candidates Synthesis: starting from a supervised fine-tuning (SFT) dataset, we treat the original response as the best candidate and prompt the MLLM to generate plausible but flawed negative candidates. 2) Text-based reasoning extraction: we carefully design a data synthesis pipeline for distilling the reasoning capability from a text-based reasoning model, which is adopted to enable the MLLM judges to regain complex reasoning ability via warm up supervised fine-tuning. Experiments demonstrate that our MR. Judge is effective across a wide range of tasks. Specifically, our MR. Judge-7B surpasses GPT-4o by 9.9% on VL-RewardBench, and improves performance on MM-Vet during inference-time scaling by up to 7.7%.
- Abstract(参考訳): 大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)を評価的判断として用いるパラダイムは、RLHFと推論時間スケーリングにおいて効果的なアプローチとして現れている。
本研究では,Multimodal Reasoner as a Judge (MR. judge)を提案する。
各応答にスコアを直接割り当てる代わりに、判断過程を推論に着想を得た多重選択問題として定式化する。
具体的には、判断モデルはまず、応答の異なる側面をカバーする意図的な推論を行い、最終的にはそれらから最良の応答を選択する。
この推論プロセスは、判断の解釈性を向上するだけでなく、MLLM審査員のパフォーマンスを大幅に向上させる。
回答が得られた質問の欠如に対処するため、自動アノテーションを実現するための次の戦略を提案する。
1) 逆応答候補合成(Reverse Response Candidates Synthesis): 教師付き微調整(SFT)データセットから、原応答を最適な候補として扱い、MLLMに妥当だが欠陥のある負の候補を生成するよう促す。
2)テキストに基づく推論抽出:テキストに基づく推論モデルから推論能力を抽出するためのデータ合成パイプラインを慎重に設計する。
MRは幅広いタスクで有効であることを示す実験結果が得られた。
具体的には、VL-RewardBenchでGPT-4oを9.9%上回り、推論時間スケーリング時のMM-Vetの性能を7.7%向上させる。
関連論文リスト
- JudgeLRM: Large Reasoning Models as a Judge [65.14085339820795]
我々は,Large Language Models (LLMs) の判断が推論能力の強化から真に恩恵を受けるかどうかを考察する。
本稿では、強化学習(RL)を用いて学習した判断指向LLMのファミリーであるジャッジLRMを紹介する。
論文 参考訳(メタデータ) (2025-03-31T02:18:51Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks [11.01213914485374]
数学的推論タスクにおいて,大規模言語モデル (LLM) について検討する。
本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。
その結果、音声の一部タグのような単純な特徴を用いて、LLM判断者の行動を予測することができるかどうかを検証した。
論文 参考訳(メタデータ) (2024-09-06T10:09:41Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [48.053949045598344]
大規模言語モデル(LLM)をオープンなシナリオで評価することは、既存のベンチマークやメトリクスがそれらを包括的に測定できないため、難しい。
本稿では,拡張性のある審査員 (JudgeLM) としてLLMを微調整し,LLMを効率よく,かつ効率的に評価する手法を提案する。
我々は7B,13Bから33Bパラメータの異なるスケールでJiceLMを訓練し、その能力と振る舞いを体系的に分析する。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。