論文の概要: Calibrating MLLM-as-a-judge via Multimodal Bayesian Prompt Ensembles
- arxiv url: http://arxiv.org/abs/2509.08777v1
- Date: Wed, 10 Sep 2025 17:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.52335
- Title: Calibrating MLLM-as-a-judge via Multimodal Bayesian Prompt Ensembles
- Title(参考訳): マルチモーダルベイズ・プロンプト・アンサンブルによるMLLM-as-a-judgeの校正
- Authors: Eric Slyman, Mehrab Tanjim, Kushal Kafle, Stefan Lee,
- Abstract要約: マルチモーダル・大規模言語モデル (MLLM) はテキスト・ツー・イメージ(TTI)生成システムの評価にますます利用されている。
これらの「ジャッジ」モデルは、様々な画像領域にまたがるバイアス、過信、一貫性のないパフォーマンスに悩まされることが多い。
MMB(Multimodal Mixture-of-Bayesian Prompt Ensembles)と呼ばれる新しいマルチモーダル認識手法を提案する。
- 参考スコア(独自算出の注目度): 20.7718577645105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) are increasingly used to evaluate text-to-image (TTI) generation systems, providing automated judgments based on visual and textual context. However, these "judge" models often suffer from biases, overconfidence, and inconsistent performance across diverse image domains. While prompt ensembling has shown promise for mitigating these issues in unimodal, text-only settings, our experiments reveal that standard ensembling methods fail to generalize effectively for TTI tasks. To address these limitations, we propose a new multimodal-aware method called Multimodal Mixture-of-Bayesian Prompt Ensembles (MMB). Our method uses a Bayesian prompt ensemble approach augmented by image clustering, allowing the judge to dynamically assign prompt weights based on the visual characteristics of each sample. We show that MMB improves accuracy in pairwise preference judgments and greatly enhances calibration, making it easier to gauge the judge's true uncertainty. In evaluations on two TTI benchmarks, HPSv2 and MJBench, MMB outperforms existing baselines in alignment with human annotations and calibration across varied image content. Our findings highlight the importance of multimodal-specific strategies for judge calibration and suggest a promising path forward for reliable large-scale TTI evaluation.
- Abstract(参考訳): マルチモーダル・大規模言語モデル(MLLM)はテキスト・ツー・イメージ(TTI)生成システムの評価にますます使われ、視覚的・テキスト的文脈に基づく自動判断を提供する。
しかしながら、これらの「ジャッジ」モデルは、様々な画像領域にまたがるバイアス、過信、一貫性のないパフォーマンスに悩まされることが多い。
素早いアンサンブルは、これらの問題を一意でテキストのみの設定で緩和することを約束しているが、我々の実験は、標準アンサンブル手法がTTIタスクに対して効果的に一般化できないことを明らかにした。
これらの制約に対処するため、我々はMultimodal Mixture-of-Bayesian Prompt Ensembles (MMB)と呼ばれる新しいマルチモーダル認識手法を提案する。
本手法では,画像クラスタリングによって強化されたベイズ的プロンプトアンサンブル手法を用いて,各試料の視覚的特徴に基づいて,判断者がプロンプトウェイトを動的に割り当てることができる。
MMBは、ペアの選好判断において精度を向上し、校正を大幅に向上し、裁判官の真の不確実性を評価するのがより容易であることを示す。
HPSv2 と MJBench の2つの TTI ベンチマークの評価では、MMB は人間のアノテーションや様々な画像内容のキャリブレーションと一致して既存のベースラインを上回ります。
本研究は,マルチモーダル特異的な判断基準決定戦略の重要性を強調し,信頼性の高い大規模TTI評価への道のりを示唆する。
関連論文リスト
- Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates [37.65554922794508]
偽テキストのサンプルを生成するために、MAC(Multimodal Adversarial Compositionality)を導入する。
我々は、サンプルワイド攻撃の成功率とグループワイドエントロピーに基づく多様性を両立させて評価した。
Llama-3.1-8Bのようなより小さな言語モデルを用いて、我々の手法は構成上の脆弱性を明らかにする上で優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-28T23:45:55Z) - Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding [48.92310906093414]
マルチモーダル大言語モデル(LLM)に適した不確実性定量化(UQ)の校正手法を提案する。
マルチモーダルモデルのキャリブレーションを改善するために,自己整合性に加えてクロスモーダル整合性を活用する。
医療質問応答(Slake)や視覚質問応答(VQAv2)といった複数のマルチモーダルタスクに対して,LLaVA-MedやLLaVAといったマルチモーダルモデルを考慮したアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-30T19:19:21Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Modality-Fair Preference Optimization for Trustworthy MLLM Alignment [22.093944381988496]
MLLM(Multimodal large language model)は、様々なタスクにおいて顕著な成功を収めている。
しかし、視覚的エンコーダとテキスト的エンコーダの別個のトレーニングは、しばしばモダリティの誤った調整をもたらす。
これらの不正確さは、実世界の応用におけるMLLMの信頼性を著しく損なう。
論文 参考訳(メタデータ) (2024-10-20T08:56:52Z) - MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation? [59.7772329962047]
MJ-Benchは、マルチモーダル・ジャッジを評価するために、包括的な選好データセットを組み込んだ新しいベンチマークである。
具体的には、より小型のCLIPベースのスコアリングモデル、オープンソースのVLM、オープンソースのVLMなど、様々なマルチモーダル・ジャッジを評価する。
実験の結果、オープンソースのVLMは一般的にフィードバックが良く、GPT-4oは他の審査員を平均上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-05T20:03:16Z) - EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models [16.18275805302776]
本稿では,その精度,安定性,微粒度を特徴とする計量であるEvalAlignを提案する。
画像の忠実度とテキスト画像のアライメントという2つの重要な側面に焦点を当てた評価プロトコルを開発する。
EvalAlignは、既存のメトリクスよりも人間の好みと密に一致し、モデルアセスメントの有効性と有用性を確認している。
論文 参考訳(メタデータ) (2024-06-24T11:56:15Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Learning from Multi-Perception Features for Real-Word Image
Super-resolution [87.71135803794519]
入力画像の複数の知覚的特徴を利用する新しいSR手法MPF-Netを提案する。
本稿では,MPFEモジュールを組み込んで,多様な知覚情報を抽出する手法を提案する。
また、モデルの学習能力を向上する対照的な正規化項(CR)も導入する。
論文 参考訳(メタデータ) (2023-05-26T07:35:49Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。