論文の概要: Aligning What Vision-Language Models See and Perceive with Adaptive Information Flow
- arxiv url: http://arxiv.org/abs/2604.15809v1
- Date: Fri, 17 Apr 2026 08:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.810813
- Title: Aligning What Vision-Language Models See and Perceive with Adaptive Information Flow
- Title(参考訳): 適応型情報フローによる視覚・言語モデルと知覚の相違
- Authors: Chengxin Liu, Wonseok Choi, Chenshuang Zhang, Tae-Hyun Oh,
- Abstract要約: VLM(Vision-Language Models)は、視覚認識、文書解析、視覚的グラウンドニングなど、幅広いタスクにおいて強力な能力を示している。
最近の研究は、VLMが問題に対応する正しい画像領域をキャプチャすることが多いが、必ずしも正しい答えを生成するとは限らないことを示している。
テキストトークンが無関係な視覚トークンに過度に注意を散らしすぎる場合、この誤認識はVLM内の最適情報フローに起因する可能性があることを示す。
- 参考スコア(独自算出の注目度): 32.21470980856891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated strong capability in a wide range of tasks such as visual recognition, document parsing, and visual grounding. Nevertheless, recent work shows that while VLMs often manage to capture the correct image region corresponding to the question, they do not necessarily produce the correct answers. In this work, we demonstrate that this misalignment could be attributed to suboptimal information flow within VLMs, where text tokens distribute too much attention to irrelevant visual tokens, leading to incorrect answers. Based on the observation, we show that modulating the information flow during inference can improve the perception capability of VLMs. The idea is that text tokens should only be associated with important visual tokens during decoding, eliminating the interference of irrelevant regions. To achieve this, we propose a token dynamics-based method to determine the importance of visual tokens, where visual tokens that exhibit distinct activation patterns during different decoding stages are viewed as important. We apply our approach to representative open-source VLMs and evaluate on various datasets, including visual question answering, visual grounding and counting, optical character recognition, and object hallucination. The results show that our approach significantly improves the performance of baselines. Project page: https://cxliu0.github.io/AIF/.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚認識、文書解析、視覚的グラウンドニングなど、幅広いタスクにおいて強力な能力を示している。
しかしながら、最近の研究では、VLMは問題に対応する正しい画像領域をキャプチャすることが多いが、必ずしも正しい答えを生成するとは限らないことが示されている。
本研究は, テキストトークンが無関係な視覚トークンに過度に注意を散布し, 誤った回答をもたらすような, VLM内の最適情報フローに起因した誤認識を実証するものである。
この結果から,VLMの知覚能力の向上が期待できることを示す。
この考え方は、テキストトークンはデコード中に重要な視覚トークンにのみ関連付けられ、無関係な領域の干渉を排除すべきである。
そこで我々は,異なる復号段階における異なるアクティベーションパターンを示す視覚トークンを重要視する,視覚トークンの重要性を判定するトークン動的手法を提案する。
提案手法をオープンソースVLMの代表例に適用し,視覚的質問応答,視覚的接地とカウント,光学的文字認識,物体幻覚など,さまざまなデータセットを用いて評価する。
その結果,本手法はベースラインの性能を著しく向上させることがわかった。
プロジェクトページ: https://cxliu0.github.io/AIF/。
関連論文リスト
- HiViS: Hiding Visual Tokens from the Drafter for Speculative Decoding in Vision-Language Models [23.98782884568504]
視覚言語モデル(HiViS)における投機的復号化のためのドナーからの視覚トークンの隠蔽を提案する。
HiViSは、視覚言語モデルにおける投機的復号化の非効率性を緩和する明示的単純入力分解フレームワークである。
提案手法は, プリフィルシーケンス長を目標VLM入力の0.7%-1.3%に圧縮する。
論文 参考訳(メタデータ) (2025-09-28T15:05:21Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。
視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。
本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:33:31Z) - Introducing Visual Perception Token into Multimodal Large Language Model [53.82301522384719]
MLLM(Multimodal Large Language Model)はその視覚エンコーダの知覚過程に依存している。
MLLMには、独自の視覚知覚プロセスを制御する自律的な能力がない。
本稿では,視覚知覚のプロセスを制御する機構をMLLMに組み込むことを目的として,視覚知覚トークンの概念を提案する。
論文 参考訳(メタデータ) (2025-02-24T18:56:12Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。