論文の概要: VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
- arxiv url: http://arxiv.org/abs/2411.17451v1
- Date: Tue, 26 Nov 2024 14:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:37:17.605671
- Title: VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
- Title(参考訳): VLRewardBench:視覚言語生成リワードモデルのためのベンチマーク
- Authors: Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu,
- Abstract要約: 視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在のアセスメント手法は、従来のタスクからAIアノテートされた好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがるベンチマークである。
- 参考スコア(独自算出の注目度): 66.56298924208319
- License:
- Abstract: Vision-language generative reward models (VL-GenRMs) play a crucial role in aligning and evaluating multimodal AI systems, yet their own evaluation remains under-explored. Current assessment methods primarily rely on AI-annotated preference labels from traditional VL tasks, which can introduce biases and often fail to effectively challenge state-of-the-art models. To address these limitations, we introduce VL-RewardBench, a comprehensive benchmark spanning general multimodal queries, visual hallucination detection, and complex reasoning tasks. Through our AI-assisted annotation pipeline combining sample selection with human verification, we curate 1,250 high-quality examples specifically designed to probe model limitations. Comprehensive evaluation across 16 leading large vision-language models, demonstrates VL-RewardBench's effectiveness as a challenging testbed, where even GPT-4o achieves only 65.4% accuracy, and state-of-the-art open-source models such as Qwen2-VL-72B, struggle to surpass random-guessing. Importantly, performance on VL-RewardBench strongly correlates (Pearson's r > 0.9) with MMMU-Pro accuracy using Best-of-N sampling with VL-GenRMs. Analysis experiments uncover three critical insights for improving VL-GenRMs: (i) models predominantly fail at basic visual perception tasks rather than reasoning tasks; (ii) inference-time scaling benefits vary dramatically by model capacity; and (iii) training VL-GenRMs to learn to judge substantially boosts judgment capability (+14.7% accuracy for a 7B VL-GenRM). We believe VL-RewardBench along with the experimental insights will become a valuable resource for advancing VL-GenRMs.
- Abstract(参考訳): 視覚言語生成報酬モデル(VL-GenRMs)は、マルチモーダルAIシステムの整列と評価において重要な役割を担っているが、その評価は未定のままである。
現在のアセスメント方法は、主に従来のVLタスクからのAIアノテートされた好みラベルに依存しており、バイアスを導入し、しばしば最先端のモデルに効果的に挑戦することができない。
これらの制約に対処するために、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークであるVL-RewardBenchを紹介する。
サンプル選択と人間の検証を組み合わせたAI支援のアノテーションパイプラインを通じて、モデルの制限を調査するために特別に設計された高品質な例1,250をキュレートします。
16の主要な視覚言語モデルに対する総合的な評価は、GPT-4oでさえ65.4%の精度しか達成できず、Qwen2-VL-72Bのような最先端のオープンソースモデルは、ランダムゲスティングを超えるのに苦労している、挑戦的なテストベッドとしてのVL-RewardBenchの有効性を示している。
重要なことは、VL-GenRMを用いたBest-of-Nサンプリングを用いて、VL-RewardBenchの性能はMMMU-Proの精度と強く相関している(ピアソン r > 0.9)。
VL-GenRMの改良に関する3つの重要な知見を解析実験により明らかにした。
(i)モデルは、主に、推論タスクよりも、基本的な視覚的知覚タスクで失敗する。
(II)モデルキャパシティによって推論時間スケーリングの利点は劇的に変化する。
3)VL-GenRMを訓練して判断能力を大幅に向上させる(VL-GenRMの精度は7B VL-GenRMで+14.7%)。
我々は、VL-RewardBenchと実験的な洞察が、VL-GenRMを前進させる貴重な資源になると信じている。
関連論文リスト
- Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models [82.92771279118888]
マルチモーダル報酬モデルを評価するためのエキスパートアノテートベンチマークであるMultimodal RewardBenchを紹介する。
我々のデータセットは、様々な視覚言語モデルから収集された5,211個の注釈付き(プロンプト、選択された応答、拒否された応答)三つ子からなる。
Gemini 1.5 ProやClaude 3.5 Sonnetといったトップパフォーマンスモデルでさえ、全体的な精度は72%に過ぎません。
論文 参考訳(メタデータ) (2025-02-20T01:48:13Z) - AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。
ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。
その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文 参考訳(メタデータ) (2025-01-03T23:03:24Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。
生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。
我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文 参考訳(メタデータ) (2024-04-03T02:40:35Z) - VLUE: A Multi-Task Benchmark for Evaluating Vision-Language Models [21.549122658275383]
視覚言語前訓練の最近の進歩は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。
一般化能力と効率-性能トレードオフを評価するマルチタスクマルチディメンジョン・ベンチマークであるVision-Language Understanding Evaluationベンチマークを導入する。
論文 参考訳(メタデータ) (2022-05-30T16:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。