論文の概要: Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking
- arxiv url: http://arxiv.org/abs/2603.09287v1
- Date: Tue, 10 Mar 2026 07:10:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.118687
- Title: Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking
- Title(参考訳): マルチモーダル物体追跡のためのモーダル・アウェア・フュージョンとデカップリングテンポラル・プロパゲーションの探索
- Authors: Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng,
- Abstract要約: マルチモーダル物体追跡における時間的伝播と融合を両立させる新しいフレームワークであるMDTrackを提案する。
モダリティを意識した融合では、それぞれの表現を処理するために、赤外線、事象、深度、RGBを含む各モダリティに専用の専門家を割り当てる。
時間的伝搬を分離するために,RGBとXのモードストリームの隠蔽状態を独立に保存・更新する2つの状態空間モデル構造を導入する。
- 参考スコア(独自算出の注目度): 14.177367335305627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing multimodal trackers adopt uniform fusion strategies, overlooking the inherent differences between modalities. Moreover, they propagate temporal information through mixed tokens, leading to entangled and less discriminative temporal representations. To address these limitations, we propose MDTrack, a novel framework for modality aware fusion and decoupled temporal propagation in multimodal object tracking. Specifically, for modality aware fusion, we allocate dedicated experts to each modality, including infrared, event, depth, and RGB, to process their respective representations. The gating mechanism within the Mixture of Experts dynamically selects the optimal experts based on the input features, enabling adaptive and modality specific fusion. For decoupled temporal propagation, we introduce two separate State Space Model structures to independently store and update the hidden states of the RGB and X modal streams, effectively capturing their distinct temporal information. To ensure synergy between the two temporal representations, we incorporate a set of cross attention modules between the input features of the two SSMs, facilitating implicit information exchange. The resulting temporally enriched features are then integrated into the backbone through another set of cross attention modules, enhancing MDTrack's ability to leverage temporal information. Extensive experiments demonstrate the effectiveness of our proposed method. Both MDTrack S and MDTrack U achieve state of the art performance across five multimodal tracking benchmarks.
- Abstract(参考訳): 既存のほとんどのマルチモーダルトラッカーは、モダリティの固有の違いを見越して、均一な融合戦略を採用している。
さらに、混合トークンを通じて時間情報を伝播し、絡み合いや識別の少ない時間表現をもたらす。
これらの制約に対処するため,マルチモーダル物体追跡における時間的伝播と融合を両立させる新しいフレームワークであるMDTrackを提案する。
具体的には、モダリティを意識した融合のために、それぞれの表現を処理するために、赤外線、イベント、深さ、RGBを含む各モダリティに専用の専門家を割り当てる。
エキスパートの混合(Mixture of Experts)内のゲーティング機構は、入力特徴に基づいて最適な専門家を動的に選択し、適応性とモダリティ固有の融合を可能にする。
時間的伝搬を分離するために、RGBとXのモードストリームの隠蔽状態を独立に保存・更新する2つの状態空間モデル構造を導入し、その時間的情報を効果的に取得する。
2つの時間的表現間の相乗効果を確保するために,2つのSSMの入力特徴間のクロスアテンションモジュールを組込み,暗黙の情報交換を容易にする。
結果として、時間的に豊かになった機能は、別のクロスアテンションモジュールを通じてバックボーンに統合され、時間情報を活用するMDTrackの能力が向上する。
実験の結果,提案手法の有効性が示された。
MDTrack SとMDTrack Uは5つのマルチモーダルトラッキングベンチマークで最先端のパフォーマンスを実現している。
関連論文リスト
- DM$^3$T: Harmonizing Modalities via Diffusion for Multi-Object Tracking [10.270441242480482]
本稿では,マルチモーダル融合を反復的特徴アライメントプロセスとして再構成する新しいフレームワークであるDM$3$Tを提案する。
提案するクロスモーダル拡散融合(C-MDF)モジュールを用いて,反復的クロスモーダル調和を行う。
トラッカーのロバスト性をさらに向上するために,信頼性推定を適応的に処理する階層型トラッカーを設計する。
論文 参考訳(メタデータ) (2025-11-28T06:02:58Z) - CAMELTrack: Context-Aware Multi-cue ExpLoitation for Online Multi-Object Tracking [68.24998698508344]
CAMELはコンテキスト対応型マルチキューExpLoitationのための新しいアソシエイトモジュールである。
エンド・ツー・エンドの検知・バイ・トラック方式とは異なり,本手法は軽量かつ高速にトレーニングが可能であり,外部のオフ・ザ・シェルフモデルを活用することができる。
提案するオンライントラッキングパイプラインであるCAMELTrackは,複数のトラッキングベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-02T13:26:23Z) - Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking [53.33637391723555]
本研究では,STTrack というマルチモーダル空間時間追跡手法を提案する。
従来のパラダイムとは対照的に,マルチモーダル時間情報を含むトークン列を連続的に生成する時間状態生成器(TSG)を導入している。
これらの時間情報トークンは、次の時刻におけるターゲットの局所化を誘導し、ビデオフレーム間の長距離コンテキスト関係を確立し、ターゲットの時間軌道を捕捉するために使用される。
論文 参考訳(メタデータ) (2024-12-20T09:10:17Z) - Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning [22.54577327204281]
マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。
既存の作品は、連続した時系列に固有のフレームレベルの冗長性を無視することが多く、ノイズを伴う不完全なモジュラリティ表現をもたらす。
本研究では,時間段階の分布変動を制約し,時間的時間的変動を効果的に捉えた時間的不変学習を提案する。
論文 参考訳(メタデータ) (2024-08-30T03:28:40Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals
in Factorized Orthogonal Latent Space [7.324708513042455]
本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。
ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
論文 参考訳(メタデータ) (2023-10-30T22:55:29Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。