論文の概要: Not All Modalities Are Equal: Instruction-Aware Gating for Multimodal Videos
- arxiv url: http://arxiv.org/abs/2605.26232v1
- Date: Mon, 25 May 2026 18:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.30018
- Title: Not All Modalities Are Equal: Instruction-Aware Gating for Multimodal Videos
- Title(参考訳): あらゆるモダリティが等しくはない:マルチモーダルビデオのための教示認識ゲーティング
- Authors: Bonan Ding, Umair Nawaz, Ufaq Khan, Abdelrahman M. Shaker, Muhammad Haris Khan, Jiale Cao, Jin Xie, Fahad Shahbaz Khan,
- Abstract要約: ビデオ,音声,深度マップ,その他のモダリティ入力間で命令認識融合を行う,UniMVUという統合マルチモーダルビデオ理解フレームワークを提案する。
解析の結果,ゲーティング機構は人間と解釈可能なモダリティの関連性に一致し,アブレーションは内部モダリティとモダリティレベルのゲーティングの寄与を示すことがわかった。
- 参考スコア(独自算出の注目度): 70.78278988781882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained video large language models excel at visual reasoning. However, they struggle when videos arrive with auxiliary streams, such as audio, depth map, or dense temporal evidence. In such a scenario, uniform fusion induces modality interference, allowing irrelevant channels to distract the model. To address this issue, we present a unified multimodal video understanding framework, named UniMVU, that performs instruction-aware fusion across video, audio, depth map, or any other modality inputs via two levels of dynamic gating: inner-modality gates emphasize salient regions within each modality, whereas modality-level gates re-weight whole streams; both are conditioned on the text instruction to adaptively balance modality importance. Our UniMVU combines cross-modal self-attention with instruction-driven inner-modality gating module and a modality-level gating module with control token; for time-aligned streams we further adopt a fast-to-slow fusion scheme that reduces redundancy. Across six benchmarks (AVQA, AVSD, Music-AVQA, ScanQA, SQA3D and MVBench), our UniMVU achieves consistent gains over static-fusion baselines achieving gains as high as 13.5 in terms of CIDEr metric. Further, our analysis shows that the gating mechanism aligns with the human-interpretable modality relevance, and ablations show the contributions of inner-modality and modality-level gating. Our UniMVU provides a simple, unified recipe for instruction-aware multimodal video understanding that scales to diverse modalities without hand-crafted fusion rules.
- Abstract(参考訳): 事前訓練されたビデオ大言語モデルは、視覚的推論に優れる。
しかし、音声、深度マップ、密集した時間的証拠など、ビデオが補助的なストリームで届くと、彼らは苦労する。
このようなシナリオでは、均一な融合はモダリティ干渉を誘導し、無関係なチャネルがモデルを混乱させる。
この問題を解決するために、UniMVUという統合マルチモーダルビデオ理解フレームワークを提案し、ビデオ、オーディオ、深度マップ、その他動的ゲーティングの2つのレベルを通して、インナーモーダルゲートが各モーダル内の健全な領域を強調する一方、モダリティレベルゲートはストリーム全体の重み付けを行う。
我々のUniMVUは命令駆動型内部モダリティゲーティングモジュールと制御トークンを用いたモダリティレベルのゲーティングモジュールを組み合わせる。
我々のUniMVUは6つのベンチマーク(AVQA, AVSD, Music-AVQA, ScanQA, SQA3D, MVBench)で、CIDErメトリックで最大13.5のゲインを達成している。
さらに,このゲーティング機構は,人間と解釈可能なモダリティの関連性に一致し,アブレーションは内部モダリティとモダリティレベルのゲーティングの寄与を示す。
我々のUniMVUは、手作りの融合ルールを使わずに多様なモダリティにスケールする、命令対応マルチモーダルビデオ理解のための、シンプルで統一されたレシピを提供する。
関連論文リスト
- UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors [26.743983108253943]
ビデオ生成にVDMプリエントを活用する統合フレームワークUniVidXを提案する。
UniVidXは、共有マルチモーダル空間における条件生成としてピクセル整列タスクを定式化する。
バックボーンのネイティブな前駆体を保ちながら、モダリティ特異的な分布に適応する。
論文 参考訳(メタデータ) (2026-05-01T13:40:56Z) - CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion [62.04833878126661]
統合拡散フレームワークにおける映像理解と制御可能な映像生成という2つの課題に対処する。
CtrlVDiffは、Hybrid Modality Control Strategy(HMCS)で訓練された統合拡散モデルであり、深度、正規度、セグメンテーション、エッジ、グラフィックベースの内在性(アルベド、粗さ、金属)から特徴を導出し、融合する。
理解と生成のベンチマーク全体にわたって、CtrlVDiffは優れた制御性と忠実さを提供し、レイヤワイズな編集(リライティング、材料調整、オブジェクト挿入)と最先端のベースラインを越えながら、いくつかのモダリティが利用できない場合の堅牢性を維持している。
論文 参考訳(メタデータ) (2025-11-26T07:27:11Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [35.86252379746625]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文 参考訳(メタデータ) (2025-05-27T08:22:56Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。