論文の概要: MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing
- arxiv url: http://arxiv.org/abs/2508.01653v1
- Date: Sun, 03 Aug 2025 08:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.991405
- Title: MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing
- Title(参考訳): MAP:Map-Levelアテンション処理を用いた大規模視覚言語モデルにおける幻覚の緩和
- Authors: Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang,
- Abstract要約: LVLM(Large Vision-Language Models)は、マルチモーダルタスクにおいて印象的なパフォーマンスを達成したが、まだ幻覚に悩まされている。
本稿では,LVLMにおける幻覚を緩和するために,新たなマップレベルの視点を導入し,モデルの隠れ状態を2次元意味マップとして解釈する。
本研究では,注意に基づく地図レベルの操作を通じて実情報を効果的に活用する学習自由復号法であるMap-Level Attention Processing (MAP)を提案する。
- 参考スコア(独自算出の注目度): 7.288683073985627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved impressive performance in multimodal tasks, but they still suffer from hallucinations, i.e., generating content that is grammatically accurate but inconsistent with visual inputs. In this work, we introduce a novel map-level perspective to mitigate hallucinations in LVLMs, interpreting the hidden states of the model as a 2D semantic map. We observe that factual information is widely distributed across this map, extending beyond the localized inter- or intra-layer regions targeted by most existing methods (e.g., contrastive decoding and layer-wise consistency). Building on this insight, we propose Map-Level Attention Processing (MAP), a training-free decoding method that effectively leverages factual information through attention-based map-level operations to improve factual consistency. Specifically, we employ Layer-Wise Criss-Cross Attention to progressively refine token representations at each decoding layer by aggregating tokens from both inter- and intra-layer dimensions. Additionally, a Global-Local Logit Fusion mechanism combines logits obtained before and after global attention to further refine predictions and improve accuracy. Our method consistently improves the truthfulness and performance of LVLMs across benchmarks, such as POPE, MME, and MMHal-Bench, demonstrating the potential of the map-level decoding strategy.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、マルチモーダルなタスクにおいて印象的なパフォーマンスを達成したが、それでも幻覚、すなわち文法的に正確だが視覚的な入力と矛盾するコンテンツを生成することに悩まされている。
本研究では,LVLMにおける幻覚を緩和する新たなマップレベルの視点を導入し,モデルの隠れ状態を2次元セマンティックマップとして解釈する。
実情報はこのマップに広く分布しており、既存の手法(例えば、対照的な復号化や層レベルでの整合性)を対象とする、局所的な層間領域や層内領域を超えて広がっている。
この知見に基づいて,注意に基づく地図レベルの操作を通じて実情報を効果的に活用し,事実整合性を向上させる訓練自由復号法であるMap-Level Attention Processing (MAP)を提案する。
具体的には,層間および層間の両方の次元からトークンを集約することにより,各復号層におけるトークン表現を段階的に洗練する。
さらに、グローバルローカ・ロジット・フュージョン(Global-Local Logit Fusion)機構は、グローバルアテンションの前後で得られるロジットを組み合わせて、予測をさらに洗練し、精度を向上させる。
提案手法は,POPE,MME,MMHal-BenchなどのベンチマークにおけるLVLMの真偽と性能を常に改善し,マップレベルの復号化戦略の可能性を実証する。
関連論文リスト
- Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos [53.723410664944566]
本稿では,画像やビデオの総合的な領域レベルの視覚的理解のためのフレームワークであるPerceive Anything Model(PAM)を提案する。
提案手法は,Large Language Models (LLMs) を統合することで,強力なセグメンテーションモデルSAM 2を拡張し,オブジェクトセグメンテーションの同時実現を可能にする。
SAM 2のリッチな視覚的特徴をマルチモーダルトークンに効率的に変換するために、Semantic Perceiverという重要なコンポーネントが導入されている。
論文 参考訳(メタデータ) (2025-06-05T17:51:39Z) - Rethinking Cell Counting Methods: Decoupling Counting and Localization [20.458912966915843]
本稿では, 概念的にシンプルで効果的なセルカウントのための非結合学習手法を提案する。
計数と密度マップの推定を共同で学習するのとは対照的に、これらの目的を疎結合することで驚くほど結果が向上することを示す。
我々の重要な洞察は、疎結合学習は、高分解能密度マップを直接数えることを学ぶ必要性を軽減することである。
論文 参考訳(メタデータ) (2025-03-18T07:50:03Z) - Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference [28.24397677839652]
マルチモーダル大規模言語モデル(MLLM)は、事前訓練された視覚エンコーダの視覚的特徴を大規模言語モデルに統合することにより、視覚言語タスクの性能を向上させる。
MLLMがどのように処理し、どのように視覚情報を利用するかは、まだ不明である。
階層型モダリティ・アウェア・プルーニング(HiMAP, Hierarchical Modality-Aware Pruning)を提案する。
論文 参考訳(メタデータ) (2025-03-17T12:31:23Z) - AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Fused Geometric and Semantic Guidance [11.085165252259042]
OSMLocは、OpenStreetMapマップに対するファーストパーソナライズされたイメージに基づく、脳にインスパイアされた視覚的ローカライゼーションアプローチである。
意味的および幾何学的ガイダンスを統合し、精度、堅牢性、一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-11-13T14:59:00Z) - Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - A Self-Training Framework Based on Multi-Scale Attention Fusion for
Weakly Supervised Semantic Segmentation [7.36778096476552]
融合型マルチスケールクラス対応アテンションマップを利用した自己学習手法を提案する。
異なるスケールのアテンションマップから情報を収集し、マルチスケールアテンションマップを得る。
次に、潜在的な領域を拡大し、ノイズの少ない領域を減らし、認知と再活性化の戦略を適用した。
論文 参考訳(メタデータ) (2023-05-10T02:16:12Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - L2G: A Simple Local-to-Global Knowledge Transfer Framework for Weakly
Supervised Semantic Segmentation [67.26984058377435]
高品質なオブジェクトアテンションマイニングのための簡易なローカル・グローバルな知識伝達フレームワークであるL2Gについて述べる。
本フレームワークは,グローバルな視点から収集したリッチオブジェクトの詳細知識をグローバルネットワークで学習する。
実験の結果,PASCAL VOC 2012とMS COCO 2014の検証セットにおいて,72.1%,44.2%のmIoU値が得られた。
論文 参考訳(メタデータ) (2022-04-07T04:31:32Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。