論文の概要: Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding
- arxiv url: http://arxiv.org/abs/2603.10863v1
- Date: Wed, 11 Mar 2026 15:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.019721
- Title: Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding
- Title(参考訳): Beyond Sequential Distance: モード間距離不変位置符号化
- Authors: Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang,
- Abstract要約: MLLM(Multimodal Large Language Models)は、長期のコンテキストシナリオにおいて視覚的な色合いに悩まされる。
モーダル距離位置変種(DIPE)を提案する。
DIPEは、モダリティ相互作用に基づく位置符号化をアンタングルする。
- 参考スコア(独自算出の注目度): 37.24524628097006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the remarkable capabilities of Multimodal Large Language Models (MLLMs), they still suffer from visual fading in long-context scenarios. Specifically, the attention to visual tokens diminishes as the text sequence lengthens, leading to text generation detached from visual constraints. We attribute this degradation to the inherent inductive bias of Multimodal RoPE, which penalizes inter-modal attention as the distance between visual and text tokens increases. To address this, we propose inter-modal Distance Invariant Position Encoding (DIPE), a simple but effective mechanism that disentangles position encoding based on modality interactions. DIPE retains the natural relative positioning for intra-modal interactions to preserve local structure, while enforcing an anchored perceptual proximity for inter-modal interactions. This strategy effectively mitigates the inter-modal distance-based penalty, ensuring that visual signals remain perceptually consistent regardless of the context length. Experimental results demonstrate that by integrating DIPE with Multimodal RoPE, the model maintains stable visual grounding in long-context scenarios, significantly alleviating visual fading while preserving performance on standard short-context benchmarks. Code is available at https://github.com/lchen1019/DIPE.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の際立った機能にもかかわらず、長いコンテキストのシナリオでは視覚的な色合いに悩まされている。
具体的には、テキストシーケンスが長くなるにつれて、視覚的トークンへの注意が減少し、視覚的制約からテキスト生成が分離される。
この劣化は、視覚とテキストのトークン間の距離が増加するにつれて、モーダル間注意を罰するマルチモーダル RoPE の固有の帰納バイアスに起因している。
そこで本研究では,モーダル間距離不変位置符号化(DIPE)を提案する。
DIPEは、モーダル間相互作用の自然な相対位置を保ち、局所構造を保ちながら、モーダル間相互作用の知覚的近接を固定する。
この戦略は、時間的距離に基づくペナルティを効果的に軽減し、視覚信号が文脈の長さに関係なく知覚的に一貫性を保つことを保証する。
実験結果から,DIPEとMultimodal RoPEを統合することで,長期コンテキストシナリオにおける安定した視覚的グラウンド化を実現し,標準のショートコンテクストベンチマークの性能を保ちながら,視覚的フェージングを著しく軽減できることがわかった。
コードはhttps://github.com/lchen1019/DIPEで入手できる。
関連論文リスト
- Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs [80.03370593724422]
Out-of-Distribution (OOD) は未知のクラスからサンプルを識別する。
現在の手法では、否定的なテキストとIDラベルを比較するなど、OOD検出中にモード内距離を組み込むことが多い。
テキストおよび視覚的視点から一貫したモーダル距離拡張を体系的に利用するフレームワークであるInterNegを提案する。
論文 参考訳(メタデータ) (2026-03-03T05:44:47Z) - GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - Video-Level Language-Driven Video-Based Visible-Infrared Person Re-Identification [47.40091830500585]
Visible-based Infrared Person Re-Identification (VVIReID) は、モダリティ内のシーケンスレベルの特徴を抽出することによって、歩行者のシーケンスをモダリティにわたってマッチングすることを目的としている。
ビデオレベル言語駆動型VVI-ReID(VLD)フレームワークは、イモダリティ言語(IMLP)と時空間アグリゲーションという2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2025-06-03T04:49:08Z) - Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position Encoding [64.29499221878746]
視覚言語モデル(VLM)は、汎用人工知能の進歩において顕著な能力を示している。
PyPEは、VLM内の視覚トークンの知覚を高めるために設計された新しいアプローチである。
本手法は,相互関連視覚要素と命令トークンとの相対的距離を減少させる。
論文 参考訳(メタデータ) (2025-01-19T07:00:46Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。