論文の概要: Uncovering Grounding IDs: How External Cues Shape Multi-Modal Binding
- arxiv url: http://arxiv.org/abs/2509.24072v2
- Date: Fri, 03 Oct 2025 22:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 12:09:05.118125
- Title: Uncovering Grounding IDs: How External Cues Shape Multi-Modal Binding
- Title(参考訳): グラウンドディングIDの発見:外部キューがマルチモーダルバインディングをどのように形成するか
- Authors: Hosein Hasani, Amirmohammad Izadi, Fatemeh Askari, Mobin Bagherian, Sadegh Mohammadian, Mohammad Izadi, Mahdieh Soleymani Baghshah,
- Abstract要約: そこで本稿では,オブジェクトをモダリティを越えて指定したパーティションにバインドする外部キューによって誘導される潜在識別子であるグラウンディングIDの概念を提案する。
また, 接地IDは, 関連成分間の注意力を高め, それによって相互接地が向上し, 幻覚を減少させることを示した。
- 参考スコア(独自算出の注目度): 8.918147502104603
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large vision-language models (LVLMs) show strong performance across multimodal benchmarks but remain limited in structured reasoning and precise grounding. Recent work has demonstrated that adding simple visual structures, such as partitions and annotations, improves accuracy, yet the internal mechanisms underlying these gains remain unclear. We investigate this phenomenon and propose the concept of Grounding IDs, latent identifiers induced by external cues that bind objects to their designated partitions across modalities. Through representation analysis, we find that these identifiers emerge as robust within-partition alignment in embedding space and reduce the modality gap between image and text. Causal interventions further confirm that these identifiers mediate binding between objects and symbolic cues. We show that Grounding IDs strengthen attention between related components, which in turn improves cross-modal grounding and reduces hallucinations. Taken together, our results identify Grounding IDs as a key symbolic mechanism explaining how external cues enhance multimodal binding, offering both interpretability and practical improvements in robustness.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、マルチモーダルベンチマークにおいて強い性能を示すが、構造化された推論と正確な基底に限られる。
最近の研究は、分割やアノテーションのような単純な視覚構造を追加することで精度が向上することを示したが、これらの利得の基盤となる内部メカニズムはいまだ不明である。
本稿では,この現象を解明し,オブジェクトを指定された分割に結合する外部キューによって誘導される潜在識別子であるグラウンドングIDの概念を提案する。
表現解析により、これらの識別子は埋め込み空間において堅牢な内部アライメントとして出現し、画像とテキスト間のモダリティギャップを低減する。
因果的介入により、これらの識別子が物体とシンボル的手がかりの間の結合を仲介することを確認した。
また, 接地IDは, 関連成分間の注意力を高め, それによって相互接地が向上し, 幻覚を減少させることを示した。
本研究の結果は,外部キューがマルチモーダルバインディングをどのように拡張するかを説明する重要なシンボルメカニズムとしてグラウンドIDを同定し,解釈可能性とロバスト性の改善を両立させた。
関連論文リスト
- Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - HEAP: Unsupervised Object Discovery and Localization with Contrastive
Grouping [29.678756772610797]
教師なしオブジェクトの発見と位置決めは、監督なしで画像内のオブジェクトを検出し、セグメント化することを目的としている。
近年の取り組みは、自己監督型トランスフォーマー機能を利用して、有能な前景物体を識別する顕著な可能性を実証している。
これらの問題に対処するために、Herarchical mErging framework via contrAstive grouPing (HEAP) を紹介する。
論文 参考訳(メタデータ) (2023-12-29T06:46:37Z) - VISAGE: Video Instance Segmentation with Appearance-Guided Enhancement [39.154059294954614]
オンラインビデオインスタンス (VIS) 法は、強力なクエリベースの検出器によって著しく進歩している。
しかし,これらの手法は位置情報に大きく依存していることが観察された。
本稿では,トラッカーにおける物体マッチングの鍵軸は外観情報であり,位置的手がかりが不十分な状況下では,その特徴を識別する上で非常に指導的になることを示す。
論文 参考訳(メタデータ) (2023-12-08T07:48:03Z) - Joint Disentangling and Adaptation for Cross-Domain Person
Re-Identification [88.79480792084995]
本稿では,ID関連・非関連特徴を解き放つ共同学習フレームワークを提案し,ID関連特徴空間にのみ適応を強制する。
我々のモデルは、ドメイン間の画像を共有外観空間と2つの別々の構造空間にエンコードするアンタングルモジュールと、共有外観空間上で対角アライメントと自己学習を行う適応モジュールを含む。
論文 参考訳(メタデータ) (2020-07-20T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。