論文の概要: Dual-Stage Value-Guided Inference with Margin-Based Reward Adjustment for Fast and Faithful VLM Captioning
- arxiv url: http://arxiv.org/abs/2506.15649v1
- Date: Wed, 18 Jun 2025 17:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.7594
- Title: Dual-Stage Value-Guided Inference with Margin-Based Reward Adjustment for Fast and Faithful VLM Captioning
- Title(参考訳): 高速かつ忠実なVLMキャプションのためのMargin-based Reward Adjustmentを用いたデュアルステージ値誘導推論
- Authors: Ankan Deria, Adinath Madhavrao Dukre, Feilong Tang, Sara Atito, Sudipta Roy, Muhammad Awais, Muhammad Haris Khan, Imran Razzak,
- Abstract要約: We introduced textbfValue-guided Inference with Margin-based Reward (ViMaR), a two-stage inference framework that improves efficiency and output fidelity。
ViMaRは、より信頼性が高く、事実的正確で、詳細で、解説的なキャプションを生成し、しかも4$times$ Speedupを達成している。
- 参考スコア(独自算出の注目度): 23.851747078717473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advances in inference-time search for vision-language models (VLMs), existing approaches remain both computationally expensive and prone to unpenalized, low-confidence generations which often lead to persistent hallucinations. We introduce \textbf{Value-guided Inference with Margin-based Reward (ViMaR)}, a two-stage inference framework that improves both efficiency and output fidelity by combining a temporal-difference value model with a margin-aware reward adjustment. In the first stage, we perform a single pass to identify the highest-value caption among diverse candidates. In the second stage, we selectively refine only those segments that were overlooked or exhibit weak visual grounding, thereby eliminating frequently rewarded evaluations. A calibrated margin-based penalty discourages low-confidence continuations while preserving descriptive richness. Extensive experiments across multiple VLM architectures demonstrate that ViMaR generates captions that are significantly more reliable, factually accurate, detailed, and explanatory, while achieving over 4$\times$ speedup compared to existing value-guided methods. Specifically, we show that ViMaR trained solely on LLaVA Mistral-7B, \textit{generalizes effectively to guide decoding in a stronger unseen model}. To further validate this, we adapt the ViMaR to steer generation in LLaVA-OneVision-Qwen2-7B, leading to consistent improvements in caption quality and demonstrating robust cross-model guidance. This cross-model generalization highlights ViMaR's flexibility and modularity, positioning it as a scalable and transferable inference-time decoding strategy. Furthermore, when ViMaR-generated captions are used for self-training, the underlying models achieve substantial gains across a broad suite of visual comprehension benchmarks, underscoring the potential of fast, accurate, and self-improving VLM pipelines.
- Abstract(参考訳): 視覚言語モデル (VLM) の推論時間探索の大幅な進歩にもかかわらず、既存のアプローチは計算に高価であり、不注意で低信頼な世代が持続的な幻覚に繋がる傾向にある。
Inference with Margin-based Reward (ViMaR)} は、時間差値モデルとマージン認識報酬調整を組み合わせた2段階の推論フレームワークである。
第1段階では,多種多様な候補の中から最も価値の高いキャプションを特定するために,単一のパスを実行する。
第2段階では,視界が低く,視界が弱い部分のみを選択的に洗練し,報奨評価を頻繁に排除する。
格付けされたマージンベースのペナルティは、記述豊かさを維持しながら低信頼の継続を妨げる。
複数のVLMアーキテクチャにわたる大規模な実験により、ViMaRは既存の値誘導方式に比べて4$\times$スピードアップを達成しつつ、信頼性、事実的正確、詳細、説明的なキャプションを生成することが示された。
具体的には、LLaVA Mistral-7BのみをトレーニングしたViMaRが、より強力な未確認モデルでデコーディングをガイドするために有効であることを示す。
さらにこれを検証するために,LLaVA-OneVision-Qwen2-7BのステアジェネレーションにViMaRを適用し,キャプションの品質を一貫して改善し,堅牢なクロスモデルガイダンスを示す。
このクロスモデル一般化はViMaRの柔軟性とモジュラリティを強調し、スケーラブルで転送可能な推論時デコード戦略として位置づけている。
さらに、ViMaRの生成したキャプションを自己学習に使用すると、基礎となるモデルは、広範囲の視覚的理解ベンチマークで大幅に向上し、高速で正確で自己改善的なVLMパイプラインの可能性を強調している。
関連論文リスト
- Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better [44.15671594378141]
自動回帰視覚再構成(ASVR)を導入し,統合された自己回帰フレームワーク内での視覚的・テキスト的モダリティの同時学習を実現する。
ASVRは14のマルチモーダルベンチマークの平均スコアでLLaVA-1.5を5%改善する。
論文 参考訳(メタデータ) (2025-06-10T17:57:50Z) - From Captions to Rewards (CAREVL): Leveraging Large Language Model Experts for Enhanced Reward Modeling in Large Vision-Language Models [58.16075709485292]
CAREVLは、高信頼データと低信頼データの両方を確実に利用することにより、嗜好報酬モデリングの新しい手法である。
CAREVL は VL-RewardBench と MLLM-as-a-Judge ベンチマークで従来の蒸留法よりも性能が向上した。
論文 参考訳(メタデータ) (2025-03-08T16:13:18Z) - Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension [95.63899307791665]
視覚価値モデル(VisVM)は、VLM推論時間探索をガイドして、より良い視覚的理解で応答を生成する。
本稿では、VLM推論時間探索をガイドし、視覚的理解を向上した応答を生成するVisVMを提案する。
論文 参考訳(メタデータ) (2024-12-04T20:35:07Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。