論文の概要: Sparse-Dense Mixture of Experts Adapter for Multi-Modal Tracking
- arxiv url: http://arxiv.org/abs/2603.13719v1
- Date: Sat, 14 Mar 2026 02:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.358691
- Title: Sparse-Dense Mixture of Experts Adapter for Multi-Modal Tracking
- Title(参考訳): マルチモーダルトラッキングのためのエキスパート適応器のスパース・ディエンス混合
- Authors: Yabin Zhu, Jianqi Li, Chenglong Li, Jiaxiang Wang, Chengjie Gu, Jin Tang,
- Abstract要約: 本稿では,PEFTに基づくマルチモーダルトラッキングのためのSparse-Dense Mixture of Experts Adapter (SDMoEA) フレームワークを提案する。
マルチレベル多モード核融合における高次相関のモデル化における既存の追跡手法の限界を克服するため,Gram-based Semantic Alignment Hypergraph Fusion (GSAHF)モジュールを提案する。
提案手法は,複数のマルチモーダルトラッキングベンチマークにおいて,他のPEFT手法と比較して優れた性能を実現する。
- 参考スコア(独自算出の注目度): 16.123153889076104
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) techniques, such as prompts and adapters, are widely used in multi-modal tracking because they alleviate issues of full-model fine-tuning, including time inefficiency, high resource consumption, parameter storage burden, and catastrophic forgetting. However, due to cross-modal heterogeneity, most existing PEFT-based methods struggle to effectively represent multi-modal features within a unified framework with shared parameters. To address this problem, we propose a novel Sparse-Dense Mixture of Experts Adapter (SDMoEA) framework for PEFT-based multi-modal tracking under a unified model structure. Specifically, we design an SDMoE module as the multi-modal adapter to model modality-specific and shared information efficiently. SDMoE consists of a sparse MoE and a dense-shared MoE: the former captures modality-specific information, while the latter models shared cross-modal information. Furthermore, to overcome limitations of existing tracking methods in modeling high-order correlations during multi-level multi-modal fusion, we introduce a Gram-based Semantic Alignment Hypergraph Fusion (GSAHF) module. It first employs Gram matrices for cross-modal semantic alignment, ensuring that the constructed hypergraph accurately reflects semantic similarity and high-order dependencies between modalities. The aligned features are then integrated into the hypergraph structure to exploit its ability to model high-order relationships, enabling deep fusion of multi-level multi-modal information. Extensive experiments demonstrate that the proposed method achieves superior performance compared with other PEFT approaches on several multi-modal tracking benchmarks, including LasHeR, RGBT234, VTUAV, VisEvent, COESOT, DepthTrack, and VOT-RGBD2022.
- Abstract(参考訳): プロンプトやアダプタなどのパラメータ効率の高い微調整(PEFT)技術は、時間的非効率性、高リソース消費、パラメータ記憶負荷、破滅的な忘れ込みといったフルモデル微調整の問題を軽減するため、マルチモーダルトラッキングにおいて広く用いられている。
しかし, 従来のPEFT手法では, 共通パラメータを持つ統一フレームワークにおいて, 複数モーダルな特徴を効果的に表現することが困難であった。
そこで本研究では,PEFTに基づくマルチモーダルトラッキングのためのSparse-Dense Mixture of Experts Adapter (SDMoEA) フレームワークを提案する。
具体的には、モダリティ固有の共有情報を効率的にモデル化するためのマルチモーダルアダプタとしてSDMoEモジュールを設計する。
SDMoEは粗いMoEと密集したMoEで構成されており、前者はモダリティ固有の情報をキャプチャし、後者はモダリティの情報を共有している。
さらに,多層多モード核融合における高次相関のモデル化における既存の追跡手法の限界を克服するために,グラムベースのセマンティックアライメントハイパーグラフフュージョン(GSAHF)モジュールを導入する。
最初は文法行列をクロスモーダルなセマンティックアライメントに用い、構築されたハイパーグラフが意味的類似性とモダリティ間の高次依存関係を正確に反映することを保証している。
次に、アライメントされた特徴をハイパーグラフ構造に統合し、高次関係をモデル化し、マルチレベルマルチモーダル情報の深層融合を可能にする。
提案手法は,LasHeR, RGBT234, VTUAV, VisEvent, COESOT, DepthTrack, VOT-RGBD2022など,複数のマルチモーダルトラッキングベンチマークにおけるPEFT手法と比較して,優れた性能を示す。
関連論文リスト
- TokaMind: A Multi-Modal Transformer Foundation Model for Tokamak Plasma Dynamics [56.073642366268764]
TokaMindは、核融合プラズマモデリングのためのオープンソースの基礎モデルフレームワークである。
公開されているMASTデータセットから、異種トカマク診断をトレーニングする。
我々は最近発表されたMASTベンチマークのTokaMarkでTokaMindを評価した。
論文 参考訳(メタデータ) (2026-02-16T12:26:07Z) - MM-DETR: An Efficient Multimodal Detection Transformer with Mamba-Driven Dual-Granularity Fusion and Frequency-Aware Modality Adapters [12.063966356953186]
マルチモーダルリモートセンシングオブジェクト検出は、困難条件下でより正確で堅牢な認識を実現することを目的としている。
注意に基づく、あるいは変形可能な畳み込み融合ブロックに依存する既存のアプローチは、依然としてパフォーマンスと軽量設計のバランスをとるのに苦労している。
マルチモーダルオブジェクト検出のための軽量かつ効率的なフレームワークMM-DETRを提案する。
論文 参考訳(メタデータ) (2025-11-29T07:23:01Z) - Merge and Guide: Unifying Model Merging and Guided Decoding for Controllable Multi-Objective Generation [49.98025799046136]
Merge-And-GuidEは、ガイド付きデコーディングにモデルマージを利用する2段階のフレームワークである。
ステージ1では、MAGEはガイダンスとベースモデルの互換性の問題を解決する。
ステージ2では、明示的で暗黙的な値モデルを統一的なガイダンスプロキシにマージします。
論文 参考訳(メタデータ) (2025-10-04T11:10:07Z) - Progressive Semantic Residual Quantization for Multimodal-Joint Interest Modeling in Music Recommendation [6.790539226766362]
本稿では,2段階の新たなマルチモーダルレコメンデーションフレームワークを提案する。
最初の段階では、モーダル固有およびモーダルジョイントのセマンティックIDを生成する。
第2段階では、ユーザのマルチモーダルな関心をモデル化するために、マルチコードブックのクロスアテンションネットワークが設計されている。
論文 参考訳(メタデータ) (2025-08-28T02:16:57Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。
異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。
実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文 参考訳(メタデータ) (2025-03-09T05:06:47Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [79.58755811919366]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - M3-JEPA: Multimodal Alignment via Multi-gate MoE based on the Joint-Embedding Predictive Architecture [6.928469290518152]
マルチモーダルタスクにJEPA(Joint-Embedding Predictive Architecture)を導入する。
入力埋め込みを出力埋め込み空間に予測器で変換し、次に潜在空間上でクロスモーダルアライメントを実行する。
我々は,M3-JEPAが様々なモダリティやタスクの最先端性能を達成でき,未知のデータセットやドメインに一般化でき,学習と推論の両方において計算効率がよいことを示す。
論文 参考訳(メタデータ) (2024-09-09T10:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。