論文の概要: MODIX: A Training-Free Multimodal Information-Driven Positional Index Scaling for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.12537v1
- Date: Tue, 14 Apr 2026 10:12:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.388575
- Title: MODIX: A Training-Free Multimodal Information-Driven Positional Index Scaling for Vision-Language Models
- Title(参考訳): MODIX:ビジョンランゲージモデルのためのトレーニング不要なマルチモーダル情報駆動位置指数スケーリング
- Authors: Ruoxiang Huang, Zhen Yuan,
- Abstract要約: 既存のアプローチは全てのトークンに一様に位置指数を割り当て、モダリティ内の情報密度の変動を見渡せる。
我々は,モダリティ固有の貢献に基づいて動的に位置決めを適応するトレーニングフリーフレームワークMODIXを提案する。
実験により,MODIXはマルチモーダル推論を一貫して改善し,タスク依存の情報分布に応じて注意を適応的に再配置することを示した。
- 参考スコア(独自算出の注目度): 2.5982950439107064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have achieved remarkable progress in multimodal understanding, yet their positional encoding mechanisms remain suboptimal. Existing approaches uniformly assign positional indices to all tokens, overlooking variations in information density within and across modalities, which leads to inefficient attention allocation where redundant visual regions dominate while informative content is underrepresented. We identify positional granularity as an implicit resource and propose MODIX (Multimodal Information-Driven Positional IndeX Scaling), a training-free framework that dynamically adapts positional strides based on modality-specific contributions. MODIX jointly models intra-modal density via covariance-based entropy and inter-modal interaction via cross-modal alignment to derive unified scores, which rescale positional indices to allocate finer granularity to informative modalities while compressing redundant ones, without requiring any modification to model parameters or architecture. Experiments across diverse architectures and benchmarks demonstrate that MODIX consistently improves multimodal reasoning and adaptively reallocates attention according to task-dependent information distributions, suggesting that positional encoding should be treated as an adaptive resource in Transformers for multimodal sequence modeling.
- Abstract(参考訳): VLM(Vision-Language Models)はマルチモーダル理解において顕著な進歩を遂げているが、その位置符号化機構は依然として最適である。
既存のアプローチでは、すべてのトークンに位置指標を均一に割り当て、モダリティ内およびモダリティ間の情報密度の変動を見渡すことで、冗長な視覚領域が支配的であり、情報的コンテンツが不足している場合の非効率な注意割当につながる。
位置の粒度を暗黙的資源として認識し,モダリティ固有の貢献に基づいて位置の進行を動的に適応するトレーニングフリーフレームワークMODIX(Multimodal Information-Driven Positional IndeX Scaling)を提案する。
MODIXは、共分散に基づくエントロピーによるモーダル内密度と、クロスモーダルアライメントによるモーダル間相互作用を共同でモデル化し、モデルパラメータやアーキテクチャを変更することなく、余分なモーダルを圧縮しながら、情報モダリティに微粒度を割り当てるために位置指標を再スケールする統合スコアを導出する。
多様なアーキテクチャとベンチマークによる実験により、MODIXはマルチモーダル推論を一貫して改善し、タスク依存の情報分布に応じて注意を適応的に再配置することを示した。
関連論文リスト
- OMEGA: Optimized Multimodal Position Encoding Index Derivation with Global Adaptive Scaling for Vision-Language Models [4.809606597614951]
VLM(Vision-Language Models)は、様々なタスクにおいて強力なパフォーマンスを示す。
位置符号化は、テキスト情報の逐次構造と視覚情報の構造の両方をモデル化する上で重要な役割を果たす。
そこで我々は,MSPE (Modality-Specific Position Scaling) を用いて位置指標を割り当てる新しい位置符号化フレームワーク OMEGA を提案する。
論文 参考訳(メタデータ) (2025-11-02T06:19:44Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - MCFNet: A Multimodal Collaborative Fusion Network for Fine-Grained Semantic Classification [2.7936465461948945]
Multimodal Collaborative Fusion Network (MCFNet) はきめ細かい分類のために設計された。
MCFNetアーキテクチャには、モーダル内特徴表現を改善する正規化統合融合モジュールが組み込まれている。
マルチモーダル決定分類モジュールは、モーダル間相関と非モーダル識別機能を利用する。
論文 参考訳(メタデータ) (2025-05-29T11:42:57Z) - Reliable Multi-Modal Object Re-Identification via Modality-Aware Graph Reasoning [20.242422751083588]
我々は、MGRNet(Modality-aware Graph Reasoning Network)と呼ばれる新しいグラフ推論モデルを活用することを提案する。
まず、微粒な局所的詳細の抽出を強化するために、モダリティ対応グラフを構築する。
次に、選択グラフノードスワップ演算を用いて、低品質な局所的特徴の悪影響を軽減する。
論文 参考訳(メタデータ) (2025-04-21T03:58:40Z) - Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシーシュワルツの発散を相互情報と統合して視覚言語アライメントを行う新しいフレームワークを提案する。
CS分散はInfoNCEのアライメント・ユニフォーム性競合にシームレスに対処し,InfoNCEと補完的な役割を担っていることがわかった。
テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文 参考訳(メタデータ) (2025-02-24T10:29:15Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Multimodal Informative ViT: Information Aggregation and Distribution for
Hyperspectral and LiDAR Classification [25.254816993934746]
Multimodal Informative Vit (MIVit) は革新的な情報集約配信機構を備えたシステムである。
MIVitは、各モードの分離されたおよび融合された特徴の実験的分布における冗長性を減少させる。
以上の結果から,MIVitの双方向凝集分配機構は極めて有効であることが示唆された。
論文 参考訳(メタデータ) (2024-01-06T09:53:33Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。