論文の概要: Judge Anything: MLLM as a Judge Across Any Modality
- arxiv url: http://arxiv.org/abs/2503.17489v1
- Date: Fri, 21 Mar 2025 18:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:09.380721
- Title: Judge Anything: MLLM as a Judge Across Any Modality
- Title(参考訳): 判断:MLLMはあらゆるモダリティにまたがる裁判官
- Authors: Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu,
- Abstract要約: 本稿では,タスクAnything と JudgeAnything という2つのベンチマークを導入し,MLLM の全体性能と判断能力を評価する。
TaskAnythingは15のあらゆるモダリティカテゴリでMMUとMMGの機能を評価し、よく確立されたベンチマークから1500のクエリをキュレートする。
judgeAnythingは、ペア比較とスコア評価の観点から、5段階(GPT-4oやGemini-2.0-Flashなど)の判定能力を評価する。
我々の研究は、より公平な評価プロトコルの必要性と、人間の嗜好との整合性を強調している。
- 参考スコア(独自算出の注目度): 43.51517213949702
- License:
- Abstract: Evaluating generative foundation models on open-ended multimodal understanding (MMU) and generation (MMG) tasks across diverse modalities (e.g., images, audio, video) poses significant challenges due to the complexity of cross-modal interactions. To this end, the idea of utilizing Multimodal LLMs (MLLMs) as automated judges has emerged, with encouraging results in assessing vision-language understanding tasks. Moving further, this paper extends MLLM-as-a-Judge across modalities to a unified manner by introducing two benchmarks, TaskAnything and JudgeAnything, to respectively evaluate the overall performance and judging capabilities of MLLMs across any-to-any modality tasks. Specifically, TaskAnything evaluates the MMU and MMG capabilities across 15 any-to-any modality categories, employing 1,500 queries curated from well-established benchmarks. Furthermore, JudgeAnything evaluates the judging capabilities of 5 advanced (e.g., GPT-4o and Gemini-2.0-Flash) from the perspectives of Pair Comparison and Score Evaluation, providing a standardized testbed that incorporates human judgments and detailed rubrics. Our extensive experiments reveal that while these MLLMs show promise in assessing MMU (i.e., achieving an average of 66.55% in Pair Comparison setting and 42.79% in Score Evaluation setting), they encounter significant challenges with MMG tasks (i.e., averaging only 53.37% in Pair Comparison setting and 30.05% in Score Evaluation setting), exposing cross-modality biases and hallucination issues. To address this, we present OmniArena, an automated platform for evaluating omni-models and multimodal reward models. Our work highlights the need for fairer evaluation protocols and stronger alignment with human preferences. The source code and dataset are publicly available at: https://urrealhero.github.io/judgeanythingweb/.
- Abstract(参考訳): オープンエンドマルチモーダル理解(MMU)と生成タスク(MMG)の生成基盤モデルの評価は、多種多様性(例えば、画像、音声、ビデオ)にまたがって行われる。
この目的のために、マルチモーダルLLM(MLLM)を自動判断として活用するというアイデアが登場し、視覚言語理解タスクの評価結果が奨励されている。
さらに, MLLM-as-a-Judge を2つのベンチマークである TaskAnything と JudgeAnything を導入し, MLLM の全体性能と判断能力を, あらゆるモダリティタスクで評価することで, 統一的な手法に拡張する。
具体的には、TaskAnythingは15のあらゆるモダリティカテゴリにまたがるMMUとMMGの機能を評価し、よく確立されたベンチマークから1500のクエリを収集する。
さらに,Pair Comparison と Score Evaluation の観点から5段階(例えば GPT-4o と Gemini-2.0-Flash)の判定能力を評価し,人間の判断と詳細なルーリックを取り入れた標準化されたテストベッドを提供する。
これらのMLLMは,MMUの評価において有望である(平均66.55%,スコア評価では42.79%)一方で,MMGの課題(ペア評価では平均53.37%,スコア評価では30.05%)に直面する。
そこで本稿では,オムニモデルとマルチモーダル報酬モデルを評価する自動化プラットフォームであるOmniArenaを紹介する。
我々の研究は、より公平な評価プロトコルの必要性と、人間の嗜好との整合性を強調している。
ソースコードとデータセットは、https://urrealhero.github.io/judgeanythingweb/.comで公開されている。
関連論文リスト
- EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark [41.68821233828375]
本稿では,MLLM-as-a-Judgeと呼ばれる新しいベンチマークを導入し,多様なモダリティにまたがる審査員を支援するMLLMの能力を評価する。
本研究は, MLLMがPair Comparisonにおいて顕著な人間ライクな識別を示す一方で, Scoring EvaluationとBatch Rankingにおいて, 人間の嗜好とは大きく異なることを明らかにした。
論文 参考訳(メタデータ) (2024-02-07T12:28:32Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。