Fugu-MT 論文翻訳(概要): VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

論文の概要: VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

arxiv url: http://arxiv.org/abs/2411.17451v1
Date: Tue, 26 Nov 2024 14:08:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:51.128345
Title: VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models
Title（参考訳）: VLRewardBench:視覚言語生成リワードモデルのためのベンチマーク
Authors: Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu,
Abstract要約: 視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。現在のアセスメント手法は、従来のタスクからAIアノテートされた好みラベルに依存している。 VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがるベンチマークである。
参考スコア（独自算出の注目度）: 66.56298924208319
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language generative reward models (VL-GenRMs) play a crucial role in aligning and evaluating multimodal AI systems, yet their own evaluation remains under-explored. Current assessment methods primarily rely on AI-annotated preference labels from traditional VL tasks, which can introduce biases and often fail to effectively challenge state-of-the-art models. To address these limitations, we introduce VL-RewardBench, a comprehensive benchmark spanning general multimodal queries, visual hallucination detection, and complex reasoning tasks. Through our AI-assisted annotation pipeline combining sample selection with human verification, we curate 1,250 high-quality examples specifically designed to probe model limitations. Comprehensive evaluation across 16 leading large vision-language models, demonstrates VL-RewardBench's effectiveness as a challenging testbed, where even GPT-4o achieves only 65.4% accuracy, and state-of-the-art open-source models such as Qwen2-VL-72B, struggle to surpass random-guessing. Importantly, performance on VL-RewardBench strongly correlates (Pearson's r > 0.9) with MMMU-Pro accuracy using Best-of-N sampling with VL-GenRMs. Analysis experiments uncover three critical insights for improving VL-GenRMs: (i) models predominantly fail at basic visual perception tasks rather than reasoning tasks; (ii) inference-time scaling benefits vary dramatically by model capacity; and (iii) training VL-GenRMs to learn to judge substantially boosts judgment capability (+14.7% accuracy for a 7B VL-GenRM). We believe VL-RewardBench along with the experimental insights will become a valuable resource for advancing VL-GenRMs.
Abstract（参考訳）: 視覚言語生成報酬モデル(VL-GenRMs)は、マルチモーダルAIシステムの整列と評価において重要な役割を担っているが、その評価は未定のままである。現在のアセスメント方法は、主に従来のVLタスクからのAIアノテートされた好みラベルに依存しており、バイアスを導入し、しばしば最先端のモデルに効果的に挑戦することができない。これらの制約に対処するために、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークであるVL-RewardBenchを紹介する。サンプル選択と人間の検証を組み合わせたAI支援のアノテーションパイプラインを通じて、モデルの制限を調査するために特別に設計された高品質な例1,250をキュレートします。 16の主要な視覚言語モデルに対する総合的な評価は、GPT-4oでさえ65.4%の精度しか達成できず、Qwen2-VL-72Bのような最先端のオープンソースモデルは、ランダムゲスティングを超えるのに苦労している、挑戦的なテストベッドとしてのVL-RewardBenchの有効性を示している。重要なことは、VL-GenRMを用いたBest-of-Nサンプリングを用いて、VL-RewardBenchの性能はMMMU-Proの精度と強く相関している(ピアソン r > 0.9)。 VL-GenRMの改良に関する3つの重要な知見を解析実験により明らかにした。 (i)モデルは、主に、推論タスクよりも、基本的な視覚的知覚タスクで失敗する。 (II)モデルキャパシティによって推論時間スケーリングの利点は劇的に変化する。 3)VL-GenRMを訓練して判断能力を大幅に向上させる(VL-GenRMの精度は7B VL-GenRMで+14.7%)。我々は、VL-RewardBenchと実験的な洞察が、VL-GenRMを前進させる貴重な資源になると信じている。

関連論文リスト

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation [43.83789393525928]
InstructVLAは、大規模な視覚言語モデル(VLM)の柔軟な推論を保存し、主要な操作性能を提供するエンド・ツー・エンドの視覚言語モデルである。 InstructVLAは、新しいトレーニングパラダイムであるVision-Language-Action Instruction Tuning (VLA-IT)を導入している。ドメイン内のSimplerEnvタスクでは、InstructVLAはSpatialVLAよりも30.5%改善されている。
論文参考訳（メタデータ） (2025-07-23T13:57:06Z)
GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning [112.51671310005604]
GLM-4.1V-9B-Thinkingは、汎用マルチモーダル理解と推論を促進するために設計された視覚言語モデル(VLM)である。モデルの潜在能力を最大限に活用するために,カリキュラムサンプリングを用いた強化学習を提案する。オープンソースのGLM-4.1V-9B-Thinkingは、同等の大きさのモデル間で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-01T17:55:04Z)
VL-GenRM: Enhancing Vision-Language Verification via Vision Experts and Iterative Training [23.391643634478587]
Vision-Language Reward Model (VL-RM) は、構造化されたフィードバックを提供することでVLモデルを整列させる鍵となる。高品質のトレーニングデータがすでに強力なVLモデルに依存しているため、ブートストラップジレンマが発生する。本稿では,視覚の専門家,思考の合理性,およびMarginベースのリジェクションサンプリングを活用した反復的トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-16T18:10:51Z)
Interactive Post-Training for Vision-Language-Action Models [28.32397816792674]
RIPT-VLAは、シンプルでスケーラブルな強化学習に基づくインタラクティブなポストトレーニングパラダイムである。 RIPT-VLAファインチューンで訓練されたビジョン・ランゲージ・アクション(VLA)モデルは、わずかに二進的な成功報酬のみを使用する。 1つのデモだけで、RIPT-VLAは15イテレーションで97%の成功率で作業不能なSFTモデルを成功させることができる。
論文参考訳（メタデータ） (2025-05-22T17:59:45Z)
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [100.85923086072204]
我々はThinkLite-VLを紹介した。これは最先端(SoTA)パフォーマンスを実現する視覚推論モデルのファミリーで、トレーニングサンプルの桁数を桁違いに減らしている。我々はMonte Carlo Tree Search (MCTS) を用いて、各インスタンスの解決に必要な視覚言語モデル(VLM)の推論反復数を用いてサンプルの難易度を測定する。 ThinkLite-VL-7BとThinkLite-VL-72Bは、8つの視覚的推論ベンチマークにおいて、それぞれのベースモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2025-04-10T17:49:05Z)
ViLBench: A Suite for Vision-Language Process Reward Modeling [25.565912785217822]
本稿では,現在の視覚大言語モデル(VLLM)を2種類の報酬モデルとしてベンチマークする。我々は、集中的なプロセス報酬信号を必要とするように設計された視覚言語ベンチマークViLBenchを紹介する。本稿では,一般VLLMと報奨モデルとのギャップを埋めるための有望な経路を予め紹介する。
論文参考訳（メタデータ） (2025-03-26T06:38:31Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models [40.87249469370042]
視覚言語モデル(VLRM)は、推論プロセスにおいてますます重要になっている。既存の視覚言語RM(VLRM)のベンチマークは、通常、その能力の1つの側面しか評価しない。我々は、12,634の質問を含むVLRMBenchと呼ばれる包括的で挑戦的なベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-10T15:52:57Z)
AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文参考訳（メタデータ） (2025-01-03T23:03:24Z)
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。 4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文参考訳（メタデータ） (2024-12-13T18:40:51Z)
Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文参考訳（メタデータ） (2024-11-07T09:17:50Z)
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities [146.4724093405187]
MM-Vet v2は、"image-text sequence understanding"と呼ばれる新しい"image-text sequence understanding"機能を含んでいる。 MM-Vet v2を用いて大規模マルチモーダルモデルのベンチマークを行った結果,Claude 3.5 Sonnetはスコア71.8の最良のモデルであり,スコア71.0のGPT-4oより若干優れていた。
論文参考訳（メタデータ） (2024-08-01T17:59:54Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文参考訳（メタデータ） (2024-04-03T02:40:35Z)
ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文参考訳（メタデータ） (2024-02-18T19:26:49Z)
Improving Commonsense in Vision-Language Models via Knowledge Graph Riddles [83.41551911845157]
本稿では,近年普及している視覚言語モデル(VL)のコモンセンス能力の解析と改善に焦点をあてる。我々は、よりスケーラブルな戦略、すなわち、CommonsensE機能のためのkNowledgeグラフ線形化によるデータ拡張を提案する(DANCE)。より優れたコモンセンス評価のために,検索に基づく最初のコモンセンス診断ベンチマークを提案する。
論文参考訳（メタデータ） (2022-11-29T18:59:59Z)
VLUE: A Multi-Task Benchmark for Evaluating Vision-Language Models [21.549122658275383]
視覚言語前訓練の最近の進歩は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。一般化能力と効率-性能トレードオフを評価するマルチタスクマルチディメンジョン・ベンチマークであるVision-Language Understanding Evaluationベンチマークを導入する。
論文参考訳（メタデータ） (2022-05-30T16:52:30Z)
Reassessing Evaluation Practices in Visual Question Answering: A Case Study on Out-of-Distribution Generalization [27.437077941786768]
大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。異なる条件下で事前学習した2つのV&Lモデルを評価する。これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
論文参考訳（メタデータ） (2022-05-24T16:44:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。