論文の概要: MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with
Vision-Language Benchmark
- arxiv url: http://arxiv.org/abs/2402.04788v1
- Date: Wed, 7 Feb 2024 12:28:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 15:39:58.041704
- Title: MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with
Vision-Language Benchmark
- Title(参考訳): MLLM-as-a-Judge:ビジョンランゲージベンチマークによるマルチモーダルLCM-as-a-Judgeの評価
- Authors: Dongping Chen, Ruoxi Chen, Shilin Zhang, Yinuo Liu, Yaochen Wang,
Huichi Zhou, Qihui Zhang, Pan Zhou, Yao Wan, Lichao Sun
- Abstract要約: 本稿では,MLLM-as-a-Judgeと呼ばれる新しいベンチマークを導入し,審査員を支援するMLLMの能力を評価する。
本研究は, MLLMがPair Comparisonsにおいて顕著な人間ライクな識別を示す一方で, Scoring Evaluation や Batch Ranking のタスクにおいて, 人間の嗜好とは大きく異なっていることを明らかにした。
- 参考スコア(独自算出の注目度): 43.07531186686455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have gained significant attention
recently, showing remarkable potential in artificial general intelligence.
However, assessing the utility of MLLMs presents considerable challenges,
primarily due to the absence multimodal benchmarks that align with human
preferences. Inspired by LLM-as-a-Judge in LLMs, this paper introduces a novel
benchmark, termed MLLM-as-a-Judge, to assess the ability of MLLMs in assisting
judges including three distinct tasks: Scoring Evaluation, Pair Comparison, and
Batch Ranking. Our study reveals that, while MLLMs demonstrate remarkable
human-like discernment in Pair Comparisons, there is a significant divergence
from human preferences in Scoring Evaluation and Batch Ranking tasks.
Furthermore, MLLMs still face challenges in judgment, including diverse biases,
hallucinatory responses, and inconsistencies, even for advanced models such as
GPT-4V. These findings emphasize the pressing need for enhancements and further
research efforts regarding MLLMs as fully reliable evaluators. Code and dataset
are available at https://github.com/Dongping-Chen/MLLM-as-a-Judge.
- Abstract(参考訳): 近年,マルチモーダル大規模言語モデル(mllm)が注目されている。
しかし、MLLMの実用性を評価することは、主に人間の嗜好に合致するマルチモーダルベンチマークが欠如していることから、かなりの課題を呈している。
LLM における LLM-as-a-Judge に触発されて,MLLM-as-a-Judge と呼ばれる新しいベンチマークを導入し,Scoring Evaluation, Pair Comparison, Batch Ranking の3つのタスクを含む審査員を支援するためのMLLM の能力を評価する。
本研究は, MLLMがPair Comparisonsにおいて顕著な人間ライクな識別を示す一方で, Scoring Evaluation や Batch Ranking タスクにおいて, 人間の嗜好とは大きく異なることを示している。
さらにMLLMは、GPT-4Vのような先進的なモデルであっても、多様なバイアス、幻覚反応、不整合を含む判断の課題に直面している。
これらの知見は, MLLMを信頼性の高い評価指標として, 強化の必要性と今後の研究課題を強調した。
コードとデータセットはhttps://github.com/Dongping-Chen/MLLM-as-a-Judge.comで公開されている。
関連論文リスト
- Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - Eyes Can Deceive: Benchmarking Counterfactual Reasoning Abilities of Multi-modal Large Language Models [71.34097831618631]
textbfCountertextbfFactual textbfMultitextbfModal reasoning benchmark(略して textbfCFMM)を導入する。
我々のCFMMは6つの課題からなる。
既存のMLLMは、自分たちが見ているものを信じることを好むが、その疑問に提示される反実的な前提を無視している。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - PRE: A Peer Review Based Large Language Model Evaluator [15.647772081061987]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [44.401826163314716]
本稿では,強力なMLLMを裁判官として用いたMLLMの新たな評価パラダイムを提案する。
我々は,MLLMをペアワイズ方式でベンチマークし,モデル間での多彩な性能を示す。
我々のベンチマークの妥当性は、人間の評価と88.02%の合意に達したことを示している。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。