論文の概要: Uni-MDTrack: Learning Decoupled Memory and Dynamic States for Parameter-Efficient Visual Tracking in All Modality
- arxiv url: http://arxiv.org/abs/2603.14452v1
- Date: Sun, 15 Mar 2026 15:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.81497
- Title: Uni-MDTrack: Learning Decoupled Memory and Dynamic States for Parameter-Efficient Visual Tracking in All Modality
- Title(参考訳): Uni-MDTrack: パラメータ効率の良い視覚トラッキングのための非結合記憶と動的状態の学習
- Authors: Wenrui Cai, Zhenyi Lu, Yuzhe Li, Yongchao Feng, Jinqing Zhang, Qingjie Liu, Yunhong Wang,
- Abstract要約: メモリ・アウェア圧縮プロンプト(MCP)モジュールと動的状態融合(DSF)モジュールの2つのコアコンポーネントからなるUni-MDTrackを提案する。
MCPは、豊富なメモリ機能をメモリ対応プロンプトトークンに効果的に圧縮し、バックボーン全体の入力と深く相互作用する。
DSFはまた、浅い層から深い層へと更新された動的状態機能を導入し、高い効率を保っている。
- 参考スコア(独自算出の注目度): 44.07279162081132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of Transformer-based one-stream trackers that possess strong capability in inter-frame relation modeling, recent research has increasingly focused on how to introduce spatio-temporal context. However, most existing methods rely on a limited number of historical frames, which not only leads to insufficient utilization of the context, but also inevitably increases the length of input and incurs prohibitive computational overhead. Methods that query an external memory bank, on the other hand, suffer from inadequate fusion between the retrieved spatio-temporal features and the backbone. Moreover, using discrete historical frames as context overlooks the rich dynamics of the target. To address the issues, we propose Uni-MDTrack, which consists of two core components: Memory-Aware Compression Prompt (MCP) module and Dynamic State Fusion (DSF) module. MCP effectively compresses rich memory features into memory-aware prompt tokens, which deeply interact with the input throughout the entire backbone, significantly enhancing the performance while maintaining a stable computational load. DSF complements the discrete memory by capturing the continuous dynamic, progressively introducing the updated dynamic state features from shallow to deep layers, while also preserving high efficiency. Uni-MDTrack also supports unified tracking across RGB, RGB-D/T/E, and RGB-Language modalities. Experiments show that in Uni-MDTrack, training only the MCP, DSF, and prediction head, keeping the proportion of trainable parameters around 30%, yields substantial performance gains, achieves state-of-the-art results on 10 datasets spanning five modalities. Furthermore, both MCP and DSF exhibit excellent generality, functioning as plug-and-play components that can boost the performance of various baseline trackers, while significantly outperforming existing parameter-efficient training approaches.
- Abstract(参考訳): フレーム間関係モデリングにおいて強力な能力を持つトランスフォーマーベースのワンストリームトラッカーの出現に伴い、最近の研究は時空間空間の時空間導入に重点を置いている。
しかし、既存のほとんどの手法は、文脈の不十分な利用につながるだけでなく、必然的に入力の長さを増大させ、不当な計算オーバーヘッドを生じさせるような、限られた履歴フレームに依存している。
一方、外部メモリバンクに問い合わせる方法は、検索した時空間的特徴とバックボーンの間の不適切な融合に悩まされる。
さらに、個別の歴史的フレームをコンテキストとして使用すれば、ターゲットのリッチなダイナミクスを見渡すことができる。
メモリ・アウェア圧縮プロンプト(MCP)モジュールと動的状態融合(DSF)モジュールの2つのコアコンポーネントからなるUni-MDTrackを提案する。
MCPは、豊富なメモリ機能をメモリ対応プロンプトトークンに効果的に圧縮し、バックボーン全体の入力と深く相互作用し、安定した計算負荷を維持しながら性能を大幅に向上させる。
DSFは、更新された動的状態の機能を浅い層から深い層に徐々に導入し、高い効率を保ちながら、離散メモリを補完する。
Uni-MDTrackは、RGB、RGB-D/T/E、RGB-Languageモダリティをまたいだ統合トラッキングもサポートする。
実験によると、Uni-MDTrackでは、トレーニング可能なパラメータの比率を30%程度保持し、パフォーマンスが大幅に向上し、5つのモードにまたがる10のデータセットに対して、最先端の結果が得られる。
さらに, MCP と DSF は, 様々なベースライントラッカーの性能を向上するプラグイン・アンド・プレイコンポーネントとして機能し, 既存のパラメータ効率のトレーニング手法よりも優れていた。
関連論文リスト
- Exploring Reliable Spatiotemporal Dependencies for Efficient Visual Tracking [9.64398631601942]
STDTrackは、信頼性のある時間的依存関係を軽量トラッカーに統合する先駆的なフレームワークである。
本稿では,時間的プロパゲートトークンを導入し,フレーム単位の特徴抽出をガイドする。
異なるサイズのオブジェクトに動的に適応するマルチスケール予測ヘッドを開発した。
論文 参考訳(メタデータ) (2026-01-14T02:22:05Z) - SEDM: Scalable Self-Evolving Distributed Memory for Agents [23.182291416527764]
SEDMは、メモリをパッシブリポジトリからアクティブな自己最適化コンポーネントに変換する検証可能で適応的なフレームワークである。
また,SEDMは,強いメモリベースラインに比べてトークンオーバーヘッドを低減しつつ,推論精度を向上することを示した。
結果は、SEDMをオープンエンドのマルチエージェントコラボレーションのためのスケーラブルで持続可能なメモリメカニズムとして強調する。
論文 参考訳(メタデータ) (2025-09-11T14:37:37Z) - DAF: An Efficient End-to-End Dynamic Activation Framework for on-Device DNN Training [41.09085549544767]
システムレベルの最適化を通じて、スケーラブルで効率的なデバイス上でのトレーニングを可能にする動的アクティベーションフレームワーク(DAF)を導入する。
DAFは、主要なシステムのボトルネックに対処することで、メモリと時間効率の動的量子化トレーニングを実現する。
組み込みプラットフォームとモバイルプラットフォームにわたるさまざまなディープラーニングモデルの評価によると、メモリ使用量の削減に22.9倍、スピードアップに32倍の3.2倍となる。
論文 参考訳(メタデータ) (2025-07-09T08:59:30Z) - Learning Frequency and Memory-Aware Prompts for Multi-Modal Object Tracking [74.15663758681849]
凍結したRGBトラッカーに軽量なプロンプトを注入するデュアルアダプタフレームワークであるLearning Frequency and Memory-Aware Promptsを紹介する。
周波数誘導型ビジュアルアダプタは、相補的なキューをモダリティ間で適応的に転送する。
短い、長い、永続的なメモリストアを持つマルチレベルメモリアダプタは、信頼できる時間的コンテキストを格納し、更新し、取得する。
論文 参考訳(メタデータ) (2025-06-30T15:38:26Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。