論文の概要: SPMTrack: Spatio-Temporal Parameter-Efficient Fine-Tuning with Mixture of Experts for Scalable Visual Tracking
- arxiv url: http://arxiv.org/abs/2503.18338v1
- Date: Mon, 24 Mar 2025 04:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:16.172593
- Title: SPMTrack: Spatio-Temporal Parameter-Efficient Fine-Tuning with Mixture of Experts for Scalable Visual Tracking
- Title(参考訳): SPMTrack: スケーラブルなビジュアルトラッキングのためのエキスパートの混合による時空間パラメータ効率の良いファインチューニング
- Authors: Wenrui Cai, Qingjie Liu, Yunhong Wang,
- Abstract要約: 視覚的トラッキングタスク(TMoE)用に調整された知識の混合に基づく新しいトラッカーを提案する。
TMoEの利点は、画像対から時間文脈への関係モデリングを拡張し、モデルパラメータの最小化による追跡精度の向上である。
我々は7つのデータセットで実験を行い、実験の結果、我々の手法が現在の最先端トラッカーを著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 37.85656595341516
- License:
- Abstract: Most state-of-the-art trackers adopt one-stream paradigm, using a single Vision Transformer for joint feature extraction and relation modeling of template and search region images. However, relation modeling between different image patches exhibits significant variations. For instance, background regions dominated by target-irrelevant information require reduced attention allocation, while foreground, particularly boundary areas, need to be be emphasized. A single model may not effectively handle all kinds of relation modeling simultaneously. In this paper, we propose a novel tracker called SPMTrack based on mixture-of-experts tailored for visual tracking task (TMoE), combining the capability of multiple experts to handle diverse relation modeling more flexibly. Benefiting from TMoE, we extend relation modeling from image pairs to spatio-temporal context, further improving tracking accuracy with minimal increase in model parameters. Moreover, we employ TMoE as a parameter-efficient fine-tuning method, substantially reducing trainable parameters, which enables us to train SPMTrack of varying scales efficiently and preserve the generalization ability of pretrained models to achieve superior performance. We conduct experiments on seven datasets, and experimental results demonstrate that our method significantly outperforms current state-of-the-art trackers. The source code is available at https://github.com/WenRuiCai/SPMTrack.
- Abstract(参考訳): 多くの最先端トラッカーは1ストリームのパラダイムを採用しており、テンプレートと検索領域の画像の連成特徴抽出と関係モデリングに単一のビジョン変換器を使用している。
しかし、異なる画像パッチ間の関係モデリングは、大きなバリエーションを示す。
例えば、ターゲット非関連情報に支配される背景領域は注意の割り当てを減らし、前景、特に境界領域は強調する必要がある。
単一のモデルは、すべての種類の関係モデリングを同時に扱うことはできない。
本稿では,視覚的トラッキングタスク(TMoE)用に調整された知識の混合に基づくSPMTrackと呼ばれる新しいトラッカーを提案する。
TMoEの利点は、画像対から時空間への関係モデリングを拡張し、モデルパラメータの最小化による追跡精度の向上である。
さらに、TMoEをパラメータ効率のよい微調整法として採用し、トレーニング可能なパラメータを大幅に削減し、様々なスケールのSPMTrackを効率的に訓練し、事前訓練されたモデルの一般化能力を保って優れた性能が得られるようにした。
我々は7つのデータセットで実験を行い、実験の結果、我々の手法が現在の最先端トラッカーを著しく上回っていることを示す。
ソースコードはhttps://github.com/WenRuiCai/SPMTrack.comで入手できる。
関連論文リスト
- Reliable Object Tracking by Multimodal Hybrid Feature Extraction and Transformer-Based Fusion [18.138433117711177]
本稿では,信頼度の高い単一オブジェクト追跡にフレームイベントベースのデータを利用する新しいマルチモーダルハイブリッドトラッカー(MMHT)を提案する。
MMHTモデルは、人工ニューラルネットワーク(ANN)とスパイクニューラルネットワーク(SNN)からなるハイブリッドバックボーンを使用して、異なる視覚モードから支配的な特徴を抽出する。
MMHTモデルは,他の最先端手法と比較して,競争性能を示すことを示した。
論文 参考訳(メタデータ) (2024-05-28T07:24:56Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-05-06T06:23:06Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - TESTAM: A Time-Enhanced Spatio-Temporal Attention Model with Mixture of
Experts [6.831798156287652]
本稿では,再帰的および非帰的トラフィックパターンを個別にモデル化する,TESTAMという新しいディープラーニングモデルを提案する。
我々は,TESTAMが再帰的および非再帰的トラフィックのより優れた表示とモデリングを実現することを示す。
論文 参考訳(メタデータ) (2024-03-05T02:27:52Z) - ACTrack: Adding Spatio-Temporal Condition for Visual Object Tracking [0.5371337604556311]
視覚的物体追跡(VOT)において,物体の時間的関係を効果的にモデル化することが重要な課題である
既存の手法は外観に基づく類似性や長期関係モデリングによって追跡され、連続するフレーム間の時間的コンテキストは容易に見過ごされてしまう。
本稿では,大規模な記憶条件を持つ付加的前時間追跡フレームワークであるACTrackについて述べる。このフレームワークは,そのパラメータを凍結することにより,トレーニング済みバックボーンの品質と性能を保ち,トラッキングにおける時間関係をモデル化するためのトレーニング可能な軽量付加性ネットを作成する。
我々は空間的特徴と時間的順序の整合性を確保するための付加的なシアム畳み込みネットワークを設計する。
論文 参考訳(メタデータ) (2024-02-27T07:34:08Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。