Fugu-MT 論文翻訳(概要): Dual-Stage Value-Guided Inference with Margin-Based Reward Adjustment for Fast and Faithful VLM Captioning

論文の概要: Dual-Stage Value-Guided Inference with Margin-Based Reward Adjustment for Fast and Faithful VLM Captioning

arxiv url: http://arxiv.org/abs/2506.15649v1
Date: Wed, 18 Jun 2025 17:23:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 19:35:51.7594
Title: Dual-Stage Value-Guided Inference with Margin-Based Reward Adjustment for Fast and Faithful VLM Captioning
Title（参考訳）: 高速かつ忠実なVLMキャプションのためのMargin-based Reward Adjustmentを用いたデュアルステージ値誘導推論
Authors: Ankan Deria, Adinath Madhavrao Dukre, Feilong Tang, Sara Atito, Sudipta Roy, Muhammad Awais, Muhammad Haris Khan, Imran Razzak,
Abstract要約: We introduced textbfValue-guided Inference with Margin-based Reward (ViMaR), a two-stage inference framework that improves efficiency and output fidelity。 ViMaRは、より信頼性が高く、事実的正確で、詳細で、解説的なキャプションを生成し、しかも4$times$ Speedupを達成している。
参考スコア（独自算出の注目度）: 23.851747078717473
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite significant advances in inference-time search for vision-language models (VLMs), existing approaches remain both computationally expensive and prone to unpenalized, low-confidence generations which often lead to persistent hallucinations. We introduce \textbf{Value-guided Inference with Margin-based Reward (ViMaR)}, a two-stage inference framework that improves both efficiency and output fidelity by combining a temporal-difference value model with a margin-aware reward adjustment. In the first stage, we perform a single pass to identify the highest-value caption among diverse candidates. In the second stage, we selectively refine only those segments that were overlooked or exhibit weak visual grounding, thereby eliminating frequently rewarded evaluations. A calibrated margin-based penalty discourages low-confidence continuations while preserving descriptive richness. Extensive experiments across multiple VLM architectures demonstrate that ViMaR generates captions that are significantly more reliable, factually accurate, detailed, and explanatory, while achieving over 4$\times$ speedup compared to existing value-guided methods. Specifically, we show that ViMaR trained solely on LLaVA Mistral-7B, \textit{generalizes effectively to guide decoding in a stronger unseen model}. To further validate this, we adapt the ViMaR to steer generation in LLaVA-OneVision-Qwen2-7B, leading to consistent improvements in caption quality and demonstrating robust cross-model guidance. This cross-model generalization highlights ViMaR's flexibility and modularity, positioning it as a scalable and transferable inference-time decoding strategy. Furthermore, when ViMaR-generated captions are used for self-training, the underlying models achieve substantial gains across a broad suite of visual comprehension benchmarks, underscoring the potential of fast, accurate, and self-improving VLM pipelines.
Abstract（参考訳）: 視覚言語モデル (VLM) の推論時間探索の大幅な進歩にもかかわらず、既存のアプローチは計算に高価であり、不注意で低信頼な世代が持続的な幻覚に繋がる傾向にある。 Inference with Margin-based Reward (ViMaR)} は、時間差値モデルとマージン認識報酬調整を組み合わせた2段階の推論フレームワークである。第1段階では,多種多様な候補の中から最も価値の高いキャプションを特定するために,単一のパスを実行する。第2段階では,視界が低く,視界が弱い部分のみを選択的に洗練し,報奨評価を頻繁に排除する。格付けされたマージンベースのペナルティは、記述豊かさを維持しながら低信頼の継続を妨げる。複数のVLMアーキテクチャにわたる大規模な実験により、ViMaRは既存の値誘導方式に比べて4$\times$スピードアップを達成しつつ、信頼性、事実的正確、詳細、説明的なキャプションを生成することが示された。具体的には、LLaVA Mistral-7BのみをトレーニングしたViMaRが、より強力な未確認モデルでデコーディングをガイドするために有効であることを示す。さらにこれを検証するために,LLaVA-OneVision-Qwen2-7BのステアジェネレーションにViMaRを適用し,キャプションの品質を一貫して改善し,堅牢なクロスモデルガイダンスを示す。このクロスモデル一般化はViMaRの柔軟性とモジュラリティを強調し、スケーラブルで転送可能な推論時デコード戦略として位置づけている。さらに、ViMaRの生成したキャプションを自己学習に使用すると、基礎となるモデルは、広範囲の視覚的理解ベンチマークで大幅に向上し、高速で正確で自己改善的なVLMパイプラインの可能性を強調している。

関連論文リスト

VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation [8.891793681316992]
ポストトレーニング量子化(PTQ)は、大規模なモデルを圧縮し、再トレーニングせずに推論を加速するための効果的なアプローチとして登場した。 PTQは大規模言語モデル (LLMs) の文脈で広く研究されているが、視覚言語モデル (VLMs) への適用性はまだ未検討である。本稿では,VLMQ と呼ばれる VLM に適した PTQ フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-05T11:57:03Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
LaVi: Efficient Large Vision-Language Models via Internal Feature Modulation [17.318287255400175]
本稿では,シームレスかつ効率的な視覚言語融合を実現する新しいLVLMであるLaViを提案する。視覚トークンの結合に依存する支配的なLVLMとは異なり、LaViは長いコンテキスト拡張をバイパスする。 LLaVA-OV-7Bと比較して、LaViはFLOPを94.0%削減し、推論速度を3.1倍改善し、メモリ使用量を半分に削減した。
論文参考訳（メタデータ） (2025-06-20T02:25:33Z)
Autoregressive Semantic Visual Reconstruction Helps VLMs Understand Better [44.15671594378141]
自動回帰視覚再構成(ASVR)を導入し,統合された自己回帰フレームワーク内での視覚的・テキスト的モダリティの同時学習を実現する。 ASVRは14のマルチモーダルベンチマークの平均スコアでLLaVA-1.5を5%改善する。
論文参考訳（メタデータ） (2025-06-10T17:57:50Z)
Reinforcing Multimodal Understanding and Generation with Dual Self-rewards [56.08202047680044]
大規模言語モデル(LLM)は、クロスモデル理解と生成を単一のフレームワークに統合する。現在のソリューションでは、外部の監視(例えば、人間のフィードバックや報酬モデル)が必要であり、一方向のタスクにのみ対処する。我々は,LMMの理解と生成能力を強化するために,自己監督型二重報酬機構を導入する。
論文参考訳（メタデータ） (2025-06-09T17:38:45Z)
From Captions to Rewards (CAREVL): Leveraging Large Language Model Experts for Enhanced Reward Modeling in Large Vision-Language Models [58.16075709485292]
CAREVLは、高信頼データと低信頼データの両方を確実に利用することにより、嗜好報酬モデリングの新しい手法である。 CAREVL は VL-RewardBench と MLLM-as-a-Judge ベンチマークで従来の蒸留法よりも性能が向上した。
論文参考訳（メタデータ） (2025-03-08T16:13:18Z)
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension [95.63899307791665]
視覚価値モデル(VisVM)は、VLM推論時間探索をガイドして、より良い視覚的理解で応答を生成する。本稿では、VLM推論時間探索をガイドし、視覚的理解を向上した応答を生成するVisVMを提案する。
論文参考訳（メタデータ） (2024-12-04T20:35:07Z)
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文参考訳（メタデータ） (2024-10-18T03:34:32Z)
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文参考訳（メタデータ） (2024-10-10T17:59:22Z)
Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。 MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文参考訳（メタデータ） (2024-02-13T18:59:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。