論文の概要: Self-Augmented Visual Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2510.13315v1
- Date: Wed, 15 Oct 2025 09:03:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.583259
- Title: Self-Augmented Visual Contrastive Decoding
- Title(参考訳): 自己拡張型視覚コントラストデコーディング
- Authors: Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta,
- Abstract要約: LVLM(Large Vision-Language Models)は、目覚ましいマルチモーダル機能を示す。
LVLMは、基礎となる言語モデルから幻覚の傾向を継承する。
本研究では,これらの制約に対処する新しい学習自由復号法を提案する。
- 参考スコア(独自算出の注目度): 13.078702859025482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated remarkable multimodal capabilities, but they inherit the tendency to hallucinate from their underlying language models. While visual contrastive decoding has been proposed to mitigate this issue, existing methods often apply generic visual augmentations that disregard the specific context provided by the text query, limiting their effectiveness. This study introduces a novel training-free decoding strategy that addresses these limitations, featuring two key contributions. First, a self-augmentation prompting strategy that leverages the intrinsic knowledge of the model to dynamically align semantics between the query and the visual augmentation. Second, an adaptive thresholding algorithm that adaptively adjusts next token candidate size based on the output sparsity, utilizing full information from the logit distribution. Extensive experiments across four LVLMs and seven benchmarks demonstrate that the proposed decoding significantly enhances factual consistency compared to state-of-the-art decoding methods. This work highlights the importance of integrating query-dependent augmentation and entropy-aware decoding for improving effective generation of LVLMs.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、目覚ましいマルチモーダル機能を示すが、基礎となる言語モデルから幻覚する傾向を継承する。
視覚的コントラストデコーディングはこの問題を軽減するために提案されているが、既存の手法では、テキストクエリが提供する特定のコンテキストを無視して、その有効性を制限した汎用的な視覚拡張を適用することが多い。
本研究では、これらの制限に対処し、2つの重要な貢献を特徴とする、新しいトレーニング不要なデコーディング戦略を紹介する。
まず、本モデルの本質的な知識を活用して、クエリと視覚的拡張のセマンティクスを動的に整合させる自己拡張促進戦略を提案する。
第二に、ロジット分布からの全情報を利用して、出力間隔に基づいて次のトークン候補サイズを適応的に調整する適応しきい値付けアルゴリズム。
4つのLVLMと7つのベンチマークによる大規模な実験により、提案された復号法は、最先端の復号法と比較して、事実整合性を大幅に向上することを示した。
この研究は、LVLMの効率的な生成を改善するために、クエリ依存の強化とエントロピー対応のデコーディングを統合することの重要性を強調している。
関連論文リスト
- ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - Mitigating Hallucination of Large Vision-Language Models via Dynamic Logits Calibration [8.192590936983347]
LVLM(Large Vision-Language Models)はマルチモーダル理解において大きな進歩を見せている。
視覚的な入力に反する幻覚、すなわちテキストの生成によってしばしば妨げられる。
既存のトレーニング不要のデコード戦略には、重大な制限がある。
本稿では,テキスト生成と推論時の視覚的エビデンスを整合させる新しいトレーニングフリーデコードフレームワークであるDynamic Logits (DLC)を紹介する。
論文 参考訳(メタデータ) (2025-06-26T17:35:40Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [42.871396640891334]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。