論文の概要: SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding
- arxiv url: http://arxiv.org/abs/2506.08391v1
- Date: Tue, 10 Jun 2025 02:55:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.268995
- Title: SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding
- Title(参考訳): SECOND:選択的およびコントラスト的復号による視覚言語モデルにおける知覚幻覚の緩和
- Authors: Woohyeon Park, Woojin Kim, Jaeik Kim, Jaeyoung Do,
- Abstract要約: SECOND: Selective and Contrastive Decodingは、視覚言語モデルがオブジェクト中心の方法でマルチスケールの視覚情報を活用できるようにする新しいアプローチです。
SECONDは知覚幻覚を著しく減らし、幅広いベンチマークを上回ります。
- 参考スコア(独自算出の注目度): 5.976839106353883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advancements in Vision-Language Models (VLMs), the performance of existing VLMs remains hindered by object hallucination, a critical challenge to achieving accurate visual understanding. To address this issue, we propose SECOND: Selective and Contrastive Decoding, a novel approach that enables VLMs to effectively leverage multi-scale visual information with an object-centric manner, closely aligning with human visual perception. SECOND progressively selects and integrates multi-scale visual information, facilitating a more precise interpretation of images. By contrasting these visual information iteratively, SECOND significantly reduces perceptual hallucinations and outperforms a wide range of benchmarks. Our theoretical analysis and experiments highlight the largely unexplored potential of multi-scale application in VLMs, showing that prioritizing and contrasting across scales outperforms existing methods.
- Abstract(参考訳): VLM(Vision-Language Models)の大幅な進歩にもかかわらず、既存のVLMの性能は、正確な視覚的理解を達成するための重要な課題であるオブジェクト幻覚によって妨げられている。
この問題に対処するために、我々はSECOND: Selective and Contrastive Decodingを提案する。これは、VLMがオブジェクト中心の方法でマルチスケールの視覚情報を効果的に活用し、人間の視覚知覚と密接に一致させることができる新しいアプローチである。
SECONDは段階的にマルチスケールの視覚情報を選択し統合し、画像のより正確な解釈を容易にする。
これらの視覚情報を反復的に比較することにより、SECONDは知覚幻覚を著しく減らし、幅広いベンチマークを上回る。
我々の理論解析と実験は、VLMにおけるマルチスケール応用のほとんど未解明の可能性を強調し、スケールをまたいだ優先順位付けとコントラストが既存の手法より優れていることを示す。
関連論文リスト
- PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual Knowledge [24.538839144639653]
LVLM(Large Vision-Language Models)は、学習済みのビジョンと言語コンポーネントを個別に統合する。
これらのモデルはしばしば、視覚エンコーダ(VE)と大言語モデル(LLM)の「認知的不整合」の中核的な問題に遭遇する。
論文 参考訳(メタデータ) (2024-11-25T18:33:14Z) - ICT: Image-Object Cross-Level Trusted Intervention for Mitigating Object Hallucination in Large Vision-Language Models [32.24716280370563]
ICTは、異なるレベルの視覚情報に焦点を移すための介入方向を計算する軽量でトレーニング不要な手法である。
少量のデータで強力なパフォーマンスを実現し、さまざまなデータセットやモデルにまたがってうまく一般化する。
論文 参考訳(メタデータ) (2024-11-22T12:22:21Z) - CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。
これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文 参考訳(メタデータ) (2024-11-19T18:27:31Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。