論文の概要: Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following
- arxiv url: http://arxiv.org/abs/2511.21662v1
- Date: Wed, 26 Nov 2025 18:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.247241
- Title: Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following
- Title(参考訳): Multi-Crit: 複数基準追従に関するマルチモーダル判断のベンチマーク
- Authors: Tianyi Xiong, Yi Ge, Ming Li, Zuolong Zhang, Pranav Kulkarni, Kaishen Wang, Qi He, Zeying Zhu, Chenxi Liu, Ruibo Chen, Tong Zheng, Yanshuo Chen, Xiyao Wang, Renrui Zhang, Wenhu Chen, Heng Huang,
- Abstract要約: Multi-Crit は、マルチモーダルな審査員が複数の基準に従い、信頼できる基準レベルの判断を下す能力を評価するためのベンチマークである。
25 LMMの包括的分析から,1) プロプライエタリなモデルは,(特にオープンエンド評価において) 多元的基準への一貫した従順性を維持するのに苦慮している,2) オープンソースのモデルは,様々な基準に柔軟に遅れている,3) 全体論的判断信号による批判的微調整は,視覚的根拠を高めるが,多元的基準レベルの判断に一般化することができない,などが分かる。
- 参考スコア(独自算出の注目度): 99.20581206115979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models (LMMs) are increasingly adopted as judges in multimodal evaluation systems due to their strong instruction following and consistency with human preferences. However, their ability to follow diverse, fine-grained evaluation criteria remains underexplored. We develop Multi-Crit, a benchmark for evaluating multimodal judges on their capacity to follow pluralistic criteria and produce reliable criterion-level judgments. Covering both open-ended generation and verifiable reasoning tasks, Multi-Crit is built through a rigorous data curation pipeline that gathers challenging response pairs with multi-criterion human annotations. It further introduces three novel metrics for systematically assessing pluralistic adherence, criterion-switching flexibility, and the ability to recognize criterion-level preference conflicts. Comprehensive analysis of 25 LMMs reveals that 1) proprietary models still struggle to maintain consistent adherence to pluralistic criteria--especially in open-ended evaluation; 2) open-source models lag further behind in flexibly following diverse criteria; and 3) critic fine-tuning with holistic judgment signals enhances visual grounding but fails to generalize to pluralistic criterion-level judgment. Additional analyses on reasoning fine-tuning, test-time scaling, and boundary consistency between open-source and proprietary models further probe the limits of current multimodal judges. As a pioneering study, Multi-Crit lays the foundation for building reliable and steerable multimodal AI evaluation.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は, マルチモーダル評価システムにおいて, 強い指示の追従と人間の嗜好との整合性から, 審査員として採用されつつある。
しかし、多種多様できめ細かい評価基準に従う能力はいまだ解明されていない。
我々は,マルチモーダル判定を多元的基準に従って評価し,信頼性の高い基準レベルの判定を行うためのベンチマークであるMulti-Critを開発した。
オープンな生成と検証可能な推論タスクの両方をカバーするMulti-Critは、厳密なデータキュレーションパイプラインを通じて構築される。
さらに、多元的従属性、基準変更の柔軟性、および基準レベルの優先的対立を認識する能力の体系的評価のための3つの新しい指標を導入する。
25個のLMMの包括的解析
1) プロプライエタリなモデルは,なおも多元的基準に一貫した遵守を維持するのに苦慮している。
2) オープンソースモデルは,様々な基準に順応的に遅れている。
3) 全体的判断信号による批判的微調整は視覚的グラウンド化を促進させるが,多元的基準レベルの判断に一般化することができない。
推論の微調整、テストタイムスケーリング、オープンソースモデルとプロプライエタリモデルの境界整合性に関するさらなる分析は、現在のマルチモーダルな判断の限界をさらに探究する。
先駆的な研究として、Multi-Critは信頼性とステアブルなマルチモーダルAI評価を構築する基盤を築いている。
関連論文リスト
- MULTIBENCH++: A Unified and Comprehensive Multimodal Fusion Benchmarking Across Specialized Domains [35.511656323075506]
我々は,マルチモーダル評価のための大規模ドメイン適応型ベンチマークを開発した。
このベンチマークでは,15のモダリティと20の予測タスクを含む,30以上のデータセットを統合している。
また、オープンソース、統一、自動評価パイプラインも開発しました。
論文 参考訳(メタデータ) (2025-11-09T16:37:09Z) - CMR-SPB: Cross-Modal Multi-Hop Reasoning over Text, Image, and Speech with Path Balance [10.843417240658992]
クロスモーダル・マルチホップ推論(CMR)は、マルチモーダル・大規模言語モデル(MLLM)の重要かつ未探索の能力である。
この能力を評価するための既存のベンチマークには、重大な欠点がある、と我々は主張する。
CMR-SPB (Cross-Modal Multi-Hop Reasoning over Text, Image and Speech with Path Balance) という新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-08-22T08:17:31Z) - MALIBU Benchmark: Multi-Agent LLM Implicit Bias Uncovered [2.8692611791027893]
我々は,マルチエージェントシステムが社会的バイアスやステレオタイプを暗黙的に補強する程度を評価するために開発された新しいベンチマークであるMALIBUを提案する。
本研究は, LLM生成出力の偏差を定量化し, 偏差緩和が真の中立性よりも限界化されたペルソナを優先することを明らかにする。
論文 参考訳(メタデータ) (2025-04-10T19:16:40Z) - ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges [13.957207630090064]
ProJudgeBenchはMLLMベースのプロセス判断器の能力を評価するために設計された最初のベンチマークである。
ProJudgeBenchは2,400件のテストケースと50,118件のステップレベルラベルで構成され、4つの科学分野にまたがっている。
ProJudgeBenchの評価は、オープンソースのモデルとプロプライエタリなモデルの間の大きなパフォーマンスギャップを明らかにしている。
論文 参考訳(メタデータ) (2025-03-09T10:55:51Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - LLM4Rerank: LLM-based Auto-Reranking Framework for Recommendations [51.76373105981212]
リグレードはレコメンデーションシステムにおいて重要な要素であり、レコメンデーションアルゴリズムの出力を精査する上で重要な役割を果たす。
そこで我々は,様々な格付け基準をシームレスに統合する包括的格付けフレームワークを提案する。
カスタマイズ可能な入力機構も統合されており、言語モデルのフォーカスを特定の再配置のニーズに合わせることができる。
論文 参考訳(メタデータ) (2024-06-18T09:29:18Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。