論文の概要: VL-GenRM: Enhancing Vision-Language Verification via Vision Experts and Iterative Training
- arxiv url: http://arxiv.org/abs/2506.13888v1
- Date: Mon, 16 Jun 2025 18:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.195917
- Title: VL-GenRM: Enhancing Vision-Language Verification via Vision Experts and Iterative Training
- Title(参考訳): VL-GenRM:ビジョンエキスパートと反復トレーニングによるビジョンランゲージ検証の強化
- Authors: Jipeng Zhang, Kehao Miao, Renjie Pi, Zhaowei Wang, Runtao Liu, Rui Pan, Tong Zhang,
- Abstract要約: Vision-Language Reward Model (VL-RM) は、構造化されたフィードバックを提供することでVLモデルを整列させる鍵となる。
高品質のトレーニングデータがすでに強力なVLモデルに依存しているため、ブートストラップジレンマが発生する。
本稿では,視覚の専門家,思考の合理性,およびMarginベースのリジェクションサンプリングを活用した反復的トレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.391643634478587
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement Fine-Tuning (RFT) with verifiable rewards has advanced large language models but remains underexplored for Vision-Language (VL) models. The Vision-Language Reward Model (VL-RM) is key to aligning VL models by providing structured feedback, yet training effective VL-RMs faces two major challenges. First, the bootstrapping dilemma arises as high-quality training data depends on already strong VL models, creating a cycle where self-generated supervision reinforces existing biases. Second, modality bias and negative example amplification occur when VL models hallucinate incorrect visual attributes, leading to flawed preference data that further misguides training. To address these issues, we propose an iterative training framework leveraging vision experts, Chain-of-Thought (CoT) rationales, and Margin-based Rejection Sampling. Our approach refines preference datasets, enhances structured critiques, and iteratively improves reasoning. Experiments across VL-RM benchmarks demonstrate superior performance in hallucination detection and multimodal reasoning, advancing VL model alignment with reinforcement learning.
- Abstract(参考訳): 検証可能な報酬を持つ強化細調整(RFT)は、大きな言語モデルが進歩しているが、ビジョンランゲージ(VL)モデルでは未熟である。
Vision-Language Reward Model (VL-RM) は、構造化されたフィードバックを提供することでVLモデルを整列させる鍵となるが、効果的なVL-RMの訓練には2つの大きな課題がある。
まず、高品質のトレーニングデータがすでに強力なVLモデルに依存しているため、自己生成の監督が既存のバイアスを強化するサイクルが生じる。
第二に、モダリティバイアスと負の例増幅は、VLモデルが誤った視覚特性を幻覚させ、さらにトレーニングを誤る欠陥のある嗜好データをもたらすときに起こる。
これらの問題に対処するために、視覚専門家、CoT(Chain-of-Thought)論理、Margin-based Rejection Smplingを活用する反復的なトレーニングフレームワークを提案する。
提案手法は嗜好データセットを洗練させ,構造化された批判を強化し,推論を反復的に改善する。
VL-RMベンチマークを用いた実験では、幻覚検出とマルチモーダル推論において優れた性能を示し、強化学習によるVLモデルアライメントを推し進めた。
関連論文リスト
- EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning [26.14137626882127]
LVLM(Large Vision-Language Models)は通常、2段階の訓練パラダイムの事前訓練と教師付き微調整を行う。
言語領域から派生した嗜好最適化は,学習後強化戦略として有効である。
本稿では,LVLMのための新しい視覚誘導型R1様強化学習アルゴリズムであるVision-R1を提案する。
論文 参考訳(メタデータ) (2025-03-23T10:21:14Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - From Captions to Rewards (CAREVL): Leveraging Large Language Model Experts for Enhanced Reward Modeling in Large Vision-Language Models [58.16075709485292]
CAREVLは、高信頼データと低信頼データの両方を確実に利用することにより、嗜好報酬モデリングの新しい手法である。
CAREVL は VL-RewardBench と MLLM-as-a-Judge ベンチマークで従来の蒸留法よりも性能が向上した。
論文 参考訳(メタデータ) (2025-03-08T16:13:18Z) - UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent [14.089700378708756]
textbfUP-VLA, textbfUnified VLA model training with multi-modal textbfUnderstanding and future textbfPrediction objectives。
UP-VLAはCalvin ABC-Dベンチマークの33%の改善を実現している。
論文 参考訳(メタデータ) (2025-01-31T03:20:09Z) - VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。