論文の概要: SEATrack: Simple, Efficient, and Adaptive Multimodal Tracker
- arxiv url: http://arxiv.org/abs/2604.12502v1
- Date: Tue, 14 Apr 2026 09:27:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.375814
- Title: SEATrack: Simple, Efficient, and Adaptive Multimodal Tracker
- Title(参考訳): SEATrack: シンプルで効率的で適応的なマルチモーダルトラッカー
- Authors: Junbin Su, Ziteng Xue, Shihui Zhang, Kun Chen, Weiming Hu, Zhipeng Zhang,
- Abstract要約: 本稿では, 単純, 効率的, 適応的な2ストリームマルチモーダルトラッカーSEATrackを紹介する。
AMG-LoRAは、AMG(Adaptive Mutual Guidance)とドメイン適応のためのLow-Rank Adaptation (LoRA)をシームレスに統合し、注意マップを動的に洗練・調整する。
そして、効率的なグローバルな関係モデリングを可能にする階層型エキスパート混合(HMoE)を導入することで、従来の局所融合アプローチから脱却する。
- 参考スコア(独自算出の注目度): 48.348918789044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) in multimodal tracking reveals a concerning trend where recent performance gains are often achieved at the cost of inflated parameter budgets, which fundamentally erodes PEFT's efficiency promise. In this work, we introduce SEATrack, a Simple, Efficient, and Adaptive two-stream multimodal tracker that tackles this performance-efficiency dilemma from two complementary perspectives. We first prioritize cross-modal alignment of matching responses, an underexplored yet pivotal factor that we argue is essential for breaking the trade-off. Specifically, we observe that modality-specific biases in existing two-stream methods generate conflicting matching attention maps, thereby hindering effective joint representation learning. To mitigate this, we propose AMG-LoRA, which seamlessly integrates Low-Rank Adaptation (LoRA) for domain adaptation with Adaptive Mutual Guidance (AMG) to dynamically refine and align attention maps across modalities. We then depart from conventional local fusion approaches by introducing a Hierarchical Mixture of Experts (HMoE) that enables efficient global relation modeling, effectively balancing expressiveness and computational efficiency in cross-modal fusion. Equipped with these innovations, SEATrack advances notable progress over state-of-the-art methods in balancing performance with efficiency across RGB-T, RGB-D, and RGB-E tracking tasks. \href{https://github.com/AutoLab-SAI-SJTU/SEATrack}{\textcolor{cyan}{Code is available}}.
- Abstract(参考訳): 多モードトラッキングにおけるパラメータ効率細調整(PEFT)は、最近の性能向上が、PEFTの効率性を根本的に損なうパラメータ予算のコストでしばしば達成される傾向を示す。
本稿では,2つの相補的な視点から,この性能効率ジレンマに対処する,シンプル,効率的,適応的な2ストリームマルチモーダルトラッカーSEATrackを紹介する。
私たちはまず、トレードオフを破るのに欠かせない、未調査だが重要な要素である、応答の相互調整を優先します。
具体的には、既存の2ストリーム手法におけるモーダリティ固有のバイアスが一致した注目マップを生成することにより、効果的な共同表現学習を妨げることを観察する。
そこで本研究では,アダプティブ・ミューチュアル・ガイダンス (AMG) とドメイン適応のためのローランド適応 (LoRA) をシームレスに統合し,モジュール間のアテンションマップを動的に洗練・調整する AMG-LoRA を提案する。
そこで我々は,HMOE(Hierarchical Mixture of Experts)を導入して,効率的な大域的関係モデリングを実現し,モーダル融合における表現性と計算効率を効果的にバランスさせることにより,従来の局所融合アプローチから脱却する。
これらのイノベーションにともなうSEATrackは、RGB-T、RGB-D、RGB-Eトラッキングタスク間でパフォーマンスと効率のバランスをとる、最先端の手法に対する顕著な進歩を推進している。
https://github.com/AutoLab-SAI-SJTU/SEATrack}{\textcolor{cyan}{Code is available}}
関連論文リスト
- MARS: Harmonizing Multimodal Convergence via Adaptive Rank Search [12.345218777941108]
Low-Rank Adaptation (LoRA) のようなパラメータ効率の高い手法を用いた細調整型マルチモーダル言語モデル (MLLM) はタスク適応に不可欠である。
そこで我々はMARS(Multimodal Adaptive Rank Search)を導入し,性能を最大化しながらトレーニングのバランスをとる最適なランクペアを探索する手法を提案する。
1つの法則は、モジュール固有の収束時間で探索空間を定式化し、もう1つの法則は最終タスク性能を予測し、与えられた集合から最適なペアを選択する。
論文 参考訳(メタデータ) (2026-02-28T15:58:28Z) - FlyLoRA: Boosting Task Decoupling and Parameter Efficiency via Implicit Rank-Wise Mixture-of-Experts [44.21416999726094]
Low-Rank Adaptation (LoRA) は基礎モデルのパラメータ効率の高い微調整法である。
MoEベースのLoRA変種は、単一タスクの命令チューニングにおいて、タスク内相関を緩和する。
FlyLoRA は暗黙の MoE ベースの LoRA 変種であり、アッププロジェクション行列にランクワイズの専門家アクティベーションを導入する。
論文 参考訳(メタデータ) (2025-10-09T16:17:13Z) - RobustMerge: Parameter-Efficient Model Merging for MLLMs with Direction Robustness [28.437105789298244]
RobustMergeは、方向ロバスト性を維持するために相補的なパラメータ適応を備えたトレーニング不要なパラメータ効率のマージ手法である。
多様なマルチモーダルタスクからなるベンチマークを構築し,本手法の卓越した性能と一般化性を証明する実験を行った。
論文 参考訳(メタデータ) (2025-02-24T13:52:05Z) - CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - Middle Fusion and Multi-Stage, Multi-Form Prompts for Robust RGB-T Tracking [1.8843687952462744]
M3PTは、ミドルフュージョンとマルチモーダル、マルチステージの視覚的プロンプトを活用する新しいRGB-Tプロンプトトラッキング手法である。
メタフレームワークに基づいて、複数のフレキシブルなプロンプト戦略を用いて、事前訓練されたモデルを適用し、ユニモーダルパターンの包括的探索を行う。
論文 参考訳(メタデータ) (2024-03-27T02:06:25Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for
Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。
マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文 参考訳(メタデータ) (2021-06-17T00:01:18Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。