論文の概要: VL-GenRM: Enhancing Vision-Language Verification via Vision Experts and Iterative Training
- arxiv url: http://arxiv.org/abs/2506.13888v1
- Date: Mon, 16 Jun 2025 18:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.195917
- Title: VL-GenRM: Enhancing Vision-Language Verification via Vision Experts and Iterative Training
- Title(参考訳): VL-GenRM:ビジョンエキスパートと反復トレーニングによるビジョンランゲージ検証の強化
- Authors: Jipeng Zhang, Kehao Miao, Renjie Pi, Zhaowei Wang, Runtao Liu, Rui Pan, Tong Zhang,
- Abstract要約: Vision-Language Reward Model (VL-RM) は、構造化されたフィードバックを提供することでVLモデルを整列させる鍵となる。
高品質のトレーニングデータがすでに強力なVLモデルに依存しているため、ブートストラップジレンマが発生する。
本稿では,視覚の専門家,思考の合理性,およびMarginベースのリジェクションサンプリングを活用した反復的トレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.391643634478587
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement Fine-Tuning (RFT) with verifiable rewards has advanced large language models but remains underexplored for Vision-Language (VL) models. The Vision-Language Reward Model (VL-RM) is key to aligning VL models by providing structured feedback, yet training effective VL-RMs faces two major challenges. First, the bootstrapping dilemma arises as high-quality training data depends on already strong VL models, creating a cycle where self-generated supervision reinforces existing biases. Second, modality bias and negative example amplification occur when VL models hallucinate incorrect visual attributes, leading to flawed preference data that further misguides training. To address these issues, we propose an iterative training framework leveraging vision experts, Chain-of-Thought (CoT) rationales, and Margin-based Rejection Sampling. Our approach refines preference datasets, enhances structured critiques, and iteratively improves reasoning. Experiments across VL-RM benchmarks demonstrate superior performance in hallucination detection and multimodal reasoning, advancing VL model alignment with reinforcement learning.
- Abstract(参考訳): 検証可能な報酬を持つ強化細調整(RFT)は、大きな言語モデルが進歩しているが、ビジョンランゲージ(VL)モデルでは未熟である。
Vision-Language Reward Model (VL-RM) は、構造化されたフィードバックを提供することでVLモデルを整列させる鍵となるが、効果的なVL-RMの訓練には2つの大きな課題がある。
まず、高品質のトレーニングデータがすでに強力なVLモデルに依存しているため、自己生成の監督が既存のバイアスを強化するサイクルが生じる。
第二に、モダリティバイアスと負の例増幅は、VLモデルが誤った視覚特性を幻覚させ、さらにトレーニングを誤る欠陥のある嗜好データをもたらすときに起こる。
これらの問題に対処するために、視覚専門家、CoT(Chain-of-Thought)論理、Margin-based Rejection Smplingを活用する反復的なトレーニングフレームワークを提案する。
提案手法は嗜好データセットを洗練させ,構造化された批判を強化し,推論を反復的に改善する。
VL-RMベンチマークを用いた実験では、幻覚検出とマルチモーダル推論において優れた性能を示し、強化学習によるVLモデルアライメントを推し進めた。
関連論文リスト
- Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning [26.14137626882127]
LVLM(Large Vision-Language Models)は通常、2段階の訓練パラダイムの事前訓練と教師付き微調整を行う。
言語領域から派生した嗜好最適化は,学習後強化戦略として有効である。
本稿では,LVLMのための新しい視覚誘導型R1様強化学習アルゴリズムであるVision-R1を提案する。
論文 参考訳(メタデータ) (2025-03-23T10:21:14Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。