論文の概要: VLM Judges Can Rank but Cannot Score: Task-Dependent Uncertainty in Multimodal Evaluation
- arxiv url: http://arxiv.org/abs/2604.25235v2
- Date: Wed, 29 Apr 2026 07:06:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 13:51:54.144953
- Title: VLM Judges Can Rank but Cannot Score: Task-Dependent Uncertainty in Multimodal Evaluation
- Title(参考訳): VLM審査員はランク付けできるがスコア付けできない:マルチモーダル評価におけるタスク依存の不確実性
- Authors: Divake Kumar, Sina Tayebati, Devashri Naik, Ranganath Krishnan, Amit Ranjan Trivedi,
- Abstract要約: 視覚言語モデル(VLM)は、マルチモーダルシステムの自動判断器としてますます使われているが、そのスコアは信頼性を示すものではない。
本研究では,判断者の得点を校正した予測区間に変換する分布自由フレームワークである共形予測を用いて,この問題を考察する。
本稿では,VLM-as-a-Judgeのコンフォメーション予測を3つの審査員と14の視覚的タスクカテゴリで初めて体系的に解析した。
- 参考スコア(独自算出の注目度): 4.694504497452662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are increasingly used as automated judges for multimodal systems, yet their scores provide no indication of reliability. We study this problem through conformal prediction, a distribution-free framework that converts a judge's point score into a calibrated prediction interval using only score-token log-probabilities, with no retraining. We present the first systematic analysis of conformal prediction for VLM-as-a-Judge across 3 judges and 14 visual task categories. Our results show that evaluation uncertainty is strongly task-dependent: intervals cover ~40% of the score range for aesthetics and natural images but expand to ~70% for chart and mathematical reasoning, yielding a quantitative reliability map for multimodal evaluation. We further identify a failure mode not captured by standard evaluation metrics, ranking-scoring decoupling, where judges achieve high ranking correlation while producing wide, uninformative intervals, correctly ordering responses but failing to assign reliable absolute scores. Finally, we show that interval width is driven primarily by task difficulty and annotation quality, i.e., the same judge and method yield 4.5x narrower intervals on a clean, multi-annotator captioning benchmark. Code: https://github.com/divake/VLM-Judge-Uncertainty
- Abstract(参考訳): 視覚言語モデル(VLM)は、マルチモーダルシステムの自動判断器としてますます使われているが、そのスコアは信頼性を示すものではない。
本研究では,この問題を,不整合予測(conformal prediction)を用いて検討する。これは,判定点のスコアを,スコアツーケンログ確率のみを用いて校正した予測区間に変換し,再学習を行わない分散自由フレームワークである。
本稿では,VLM-as-a-Judgeのコンフォメーション予測を3つの審査員と14の視覚的タスクカテゴリで初めて体系的に解析した。
その結果、評価の不確実性はタスク依存に強く依存していることが判明した: 間隔は美学や自然画像のスコア範囲の約40%をカバーしているが、チャートや数学的推論では70%まで拡大し、マルチモーダル評価では定量的な信頼性マップが得られる。
さらに,標準的な評価指標であるランキング・スコアのデカップリングによって捉えられていない障害モードを同定し,審査員が高いランク相関を達成しつつ,広範かつ不整形区間を発生させ,応答を正しく順序付けするが,信頼性の高い絶対スコアを割り当てることができないことを示す。
最後に, 間隔幅はタスクの難易度とアノテーションの品質, すなわち, クリーンなマルチアノテーションキャプションベンチマークにおいて, 同じ判定値とメソッドが4.5倍の狭区間を出力することを示す。
コード:https://github.com/divake/VLM-Judge-Uncertainty
関連論文リスト
- C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning [0.6138671548064355]
大型言語モデル (LLMs) は、チェーン・オブ・ソート (CoT) 推論の判断としてますます使われている。
C2-Faithは、因果性(各ステップは以前の文脈から論理的に従うのか?
二つの因果検出,因果ステップの定位,カバレッジスコアの3つの課題において,フロンティア判事の評価を行った。
論文 参考訳(メタデータ) (2026-03-05T13:36:47Z) - Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics [25.374192139098284]
マルチモーダル評価において,システム障害モードとしての原形質バイアスについて検討する。
我々は、動物、オブジェクト、デモグラフィー画像にまたがる対照ベンチマークProtoBiasを導入する。
以上の結果から,CLIPScore,PickScore,VQAベースのスコアなど,広く使用されているメトリクスが,これらのペアを誤用していることが判明した。
本稿では, 故障率を大幅に低減し, 誤判定を抑える, 頑健な7BパラメータであるProtoScoreを提案する。
論文 参考訳(メタデータ) (2026-01-08T13:49:14Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity [21.192000569821943]
我々は、厳密な目標と検証可能な構成がなければ、ベンチマークのランキングは、ほぼノイズの多い高信頼度ランキングを生成することができると論じる。
本稿では,Arena-Hard Autoが使用するELOスタイルのアグリゲーションが崩壊し,真のランキングの不確かさをマスクすることを示す。
我々の結果は、妥当性を損なう設計上の失敗を強調し、より良いスコープで信頼性に配慮したベンチマークを構築するための実用的な原則を提供する。
論文 参考訳(メタデータ) (2025-09-24T16:26:47Z) - Judging LLMs on a Simplex [2.088672652658465]
一般的な実践は、大言語モデル(LLM)自体を裁判官として使用することであるが、このアプローチの理論的性質はまだよく理解されていない。
判定と候補の両方を確率的単純度上の点として表現する幾何学的枠組みは,何であるか,何であるかを識別できないのか,有用な知見を提供することができる。
論文 参考訳(メタデータ) (2025-05-28T04:50:41Z) - SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - Bipartite Ranking Fairness through a Model Agnostic Ordering Adjustment [54.179859639868646]
本稿では,二部類ランキングにおける公平性を実現するためのモデルに依存しない後処理フレームワークxOrderを提案する。
xOrderは、教師なしおよび教師なしの公正度メトリックを含む、さまざまな分類モデルとランキングフェアネスメトリクスと互換性がある。
提案アルゴリズムを,4つのベンチマークデータセットと2つの実世界の患者電子健康記録リポジトリ上で評価した。
論文 参考訳(メタデータ) (2023-07-27T07:42:44Z) - Uniformity in Heterogeneity:Diving Deep into Count Interval Partition
for Crowd Counting [56.44300325295678]
一様誤差分割(UEP)と呼ばれる新しいカウント間隔分割基準を提案する。
MCP基準は、推論中にそのカウント値を表すために、各インターバルのベストカウントプロキシを選択する。
統一誤り分割ネットワーク(UEPNet)と呼ばれる単純で効果的なモデルを提案する。
論文 参考訳(メタデータ) (2021-07-27T06:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。