論文の概要: AttAnchor: Guiding Cross-Modal Token Alignment in VLMs with Attention Anchors
- arxiv url: http://arxiv.org/abs/2509.23109v1
- Date: Sat, 27 Sep 2025 04:37:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.046893
- Title: AttAnchor: Guiding Cross-Modal Token Alignment in VLMs with Attention Anchors
- Title(参考訳): AttAnchor: 注意アンカー付きVLMにおけるクロスモーダルトークンアライメントの誘導
- Authors: Junyang Zhang, Tianyi Zhu, Thierry Tambe,
- Abstract要約: 本研究では,意味論的に類似したトークンをモダリティ間で効率的にグループ化するパラメータフリーフレームワークであるAttention Anchorを提案する。
関連する視覚的パッチの近くにテキストトークンを挿入することで、真のコンテンツベースのクロスモーダルアテンションスコアを示すセマンティックなサインポストを作成する。
AttAnchorは15のメトリクスとベンチマークのうち13の改善を実現している。
- 参考スコア(独自算出の注目度): 3.9039205692819547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental reason for the dominance of attention over RNNs and LSTMs in LLMs is its ability to capture long-range dependencies by modeling direct interactions between all tokens, overcoming the sequential limitations of recurrent architectures. Similarly, a key reason why today's vision language models (VLMs) hallucinate and underperform pure language models is that they rely on direct concatenation of image and text tokens with a modality-blinded positional encoding, which conveniently adopts the pretrained LLM backbone but forces unnecessary long-distance attention between semantically related tokens across modalities. This underscores the urgent need for mechanisms that efficiently enhance token locality and cross-modal alignment. In response, we propose Attention Anchor, a parameter-free framework that efficiently groups semantically similar tokens across modalities, improving cross-modal locality. By inserting text tokens near relevant visual patches, we create semantic signposts that reveal true content-based cross-modal attention scores, guiding the model to focus on the correct image regions for tasks such as VQA, MMBench and POPE. This improves answer accuracy and reduces hallucinations without disrupting the prompt's semantic flow. AttAnchor achieves improvements across 13 out of 15 different metrics and benchmarks, including up to 32% gains on reasoning tasks and up to 15% improvements on hallucination benchmarks. AttAnchor enables TinyLLaVA 1B to outperform much larger models like LLaVA 7B and QwenVL 3B on POPE with only 0.1% inference time overhead. To the best of our knowledge, this work is among the first to investigate mixed-modal token grouping, where text and image tokens are clustered jointly into shared groups rather than being grouped within a single modality or merely aligned post-hoc with additional alignment losses.
- Abstract(参考訳): LLM における RNN や LSTM に対する注目の優位性の基本的な理由は、すべてのトークン間の直接相互作用をモデル化し、繰り返しアーキテクチャの逐次的制限を克服することで、長距離依存を捉える能力である。
同様に、今日の視覚言語モデル(VLM)が幻覚的かつ過小評価される主な理由は、画像とテキストトークンの直接結合とモダリティブロードされた位置符号化に依存しているためである。
このことはトークンの局所性とクロスモーダルアライメントを効果的に強化するメカニズムの緊急の必要性を浮き彫りにする。
そこで本研究では,モダリティ間で意味論的に類似したトークンを効率的にグループ化し,モダリティ間の局所性を向上するパラメータフリーフレームワークであるAttention Anchorを提案する。
VQA,MMBench,POPEなどのタスクに対して,テキストトークンを関連付けられた視覚的パッチの近くに挿入することにより,真のコンテンツベースのクロスモーダルアテンションスコアを明らかにするセマンティックなサインポストを作成する。
これにより、応答精度が向上し、プロンプトのセマンティックフローを乱すことなく幻覚を低減する。
AttAnchorは15のメトリクスとベンチマークのうち13の改善を実現している。
AttAnchorにより、TinyLLaVA 1B は LLaVA 7B や QwenVL 3B といったより大きなモデルを POPE 上で0.1% の推論時間オーバーヘッドで上回ることができる。
我々の知る限りでは、この研究は、テキストと画像のトークンが単一のモダリティ内でグループ化されるか、あるいは単にアライメントロスを伴うアライメント後にアライメントされるのではなく、共有グループに一緒にクラスタ化される、混合モーダルトークンのグルーピングを最初に調査するものである。
関連論文リスト
- Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Interleaved-Modal Chain-of-Thought [14.342351827047862]
チェーン・オブ・ソート(Chain-of-Thought)は、最終回答に到達する前に、一連の中間的推論ステップを導き出す。
我々は、ICoT (textbf Interleaved-modal Chain-of-Thought) というイメージを組み込んだマルチモーダルチェーンを提案する。
ICoTは、最終的な答えを推測するために、ペア化された視覚的論理とテキスト的論理からなるシーケンシャルな推論ステップを生成する。
論文 参考訳(メタデータ) (2024-11-29T06:06:35Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。