論文の概要: Preserving Localized Patch Semantics in VLMs
- arxiv url: http://arxiv.org/abs/2602.01530v1
- Date: Mon, 02 Feb 2026 01:48:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.839533
- Title: Preserving Localized Patch Semantics in VLMs
- Title(参考訳): VLMにおける局所的パッチセマンティクスの保存
- Authors: Parsa Esmaeilkhani, Longin Jan Latecki,
- Abstract要約: 視覚トークンが対応する画像パッチから受け継がれた視覚的表現を失うのを防ぐために、NTP(Next-token Prediction)に損失を導入する。
LLLは、画像トークンが局所的な視覚情報を失うのを防ぐために、自己注意層における画像とテキストトークンの混合を制限している。
我々の実験が示すように、LLLは画像中の有意義なオブジェクト信頼マップを生成することによって、Logit Lensを実用的に意味のあるものにするだけでなく、特別なヘッドを付けずにセグメンテーションのような視覚中心のタスクのパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 8.586228101739259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Logit Lens has been proposed for visualizing tokens that contribute most to LLM answers. Recently, Logit Lens was also shown to be applicable in autoregressive Vision-Language Models (VLMs), where it illustrates the conceptual content of image tokens in the form of heatmaps, e.g., which image tokens are likely to depict the concept of cat in a given image. However, the visual content of image tokens often gets diffused to language tokens, and consequently, the locality of visual information gets mostly destroyed, which renders Logit Lens visualization unusable for explainability. To address this issue, we introduce a complementary loss to next-token prediction (NTP) to prevent the visual tokens from losing the visual representation inherited from corresponding image patches. The proposed Logit Lens Loss (LLL) is designed to make visual token embeddings more semantically aligned with the textual concepts that describe their image regions (e.g., patches containing a cat with the word "cat"), without requiring any architectural modification or large-scale training. This way, LLL constrains the mixing of image and text tokens in the self-attention layers in order to prevent image tokens from losing their localized visual information. As our experiments show, LLL not only makes Logit Lens practically relevant by producing meaningful object confidence maps in images, but also improves performance on vision-centric tasks like segmentation without attaching any special heads.
- Abstract(参考訳): Logit Lens は LLM の回答に最も寄与するトークンを可視化するために提案されている。
近年、ロジットレンズは自己回帰型視覚ランゲージモデル(VLM)にも適用され、画像トークンの概念内容がヒートマップの形で示されている。
しかし、画像トークンの視覚的内容は言語トークンに拡散することが多く、その結果、視覚情報の局所性はほとんど破壊され、Logit Lensの可視化は説明不可能になる。
この問題に対処するために、視覚トークンが対応する画像パッチから受け継がれた視覚的表現を失うのを防ぐために、次トーケン予測(NTP)に相補的損失を導入する。
提案されたLogit Lens Loss (LLL) は、視覚トークンの埋め込みをより意味的に、彼らのイメージ領域(例えば、猫に"cat"という言葉の付いたパッチを含む)を記述したテキストの概念と整合させるように設計されている。
このようにして、LLLは、画像トークンが局所化された視覚情報を失うのを防ぐために、自己アテンション層における画像とテキストトークンの混合を制限する。
我々の実験が示すように、LLLは画像中の有意義なオブジェクト信頼マップを生成することによって、Logit Lensを実用的に意味のあるものにするだけでなく、特別なヘッドを付けずにセグメンテーションのような視覚中心のタスクのパフォーマンスを向上させる。
関連論文リスト
- LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs [40.11215282864732]
自然言語による記述に潜在表現をマッピングするための新しいアプローチであるLatentLensを紹介する。
本手法を10種類の視覚言語モデル(VLM)で評価する。
本研究では,LatentLensが生成した記述が意味論的に意味を持ち,人間に対してより微細な解釈を提供することを示す。
論文 参考訳(メタデータ) (2026-01-31T02:33:07Z) - Direct Visual Grounding by Directing Attention of Visual Tokens [8.586228101739259]
視覚言語モデル(VLM)は、視覚トークンとテキストトークンを混合する。
NTP損失は視覚トークンに注意を向けるには不十分な信号であると考えられる。
視覚トークンの注意を直接監視する新しい損失関数を提案する。
論文 参考訳(メタデータ) (2025-11-16T19:09:21Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Image Tokens Matter: Mitigating Hallucination in Discrete Tokenizer-based Large Vision-Language Models via Latent Editing [39.969451863788464]
LVLM(Large Vision-Language Models)は、視覚入力を有限のトークン集合に符号化することで、マルチモーダル表現を統一する。
これらのモデルは、まだ存在しないオブジェクトを幻覚させる。
生成中の潜像埋め込みを変更することで、視覚的に欠落したトークンの影響を抑える幻覚緩和法を提案する。
論文 参考訳(メタデータ) (2025-05-24T22:36:15Z) - Descriminative-Generative Custom Tokens for Vision-Language Models [101.40245125955306]
本稿では,視覚言語モデル(VLM)における新しい概念を表現するためのカスタムトークンの学習の可能性について検討する。
本研究の目的は,識別的タスクと生成的タスクの両方に有効なトークンを学習し,単語をうまく合成して新しい入力クエリを構築することである。
論文 参考訳(メタデータ) (2025-02-17T18:13:42Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Auto-Encoding Morph-Tokens for Multimodal LLM [151.2618346912529]
そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。
実験により、モルヒネはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
論文 参考訳(メタデータ) (2024-05-03T08:43:06Z) - Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。
サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。
サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。