論文の概要: Towards Universal Modal Tracking with Online Dense Temporal Token Learning
- arxiv url: http://arxiv.org/abs/2507.20177v1
- Date: Sun, 27 Jul 2025 08:47:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.169575
- Title: Towards Universal Modal Tracking with Online Dense Temporal Token Learning
- Title(参考訳): オンラインDense Temporal Token Learning を用いたユニバーサルモーダル追跡に向けて
- Authors: Yaozong Zheng, Bineng Zhong, Qihua Liang, Shengping Zhang, Guorong Li, Xianxian Li, Rongrong Ji,
- Abstract要約: オンライン高密度時間トークン学習を用いたユニバーサルビデオレベルのモダリティ認識追跡モデルを提案する。
モデルの入力をビデオシーケンスレベルに拡張し、よりリッチなビデオコンテキストを言語に近い視点から見ることを目的としている。
- 参考スコア(独自算出の注目度): 66.83607018706519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a universal video-level modality-awareness tracking model with online dense temporal token learning (called {\modaltracker}). It is designed to support various tracking tasks, including RGB, RGB+Thermal, RGB+Depth, and RGB+Event, utilizing the same model architecture and parameters. Specifically, our model is designed with three core goals: \textbf{Video-level Sampling}. We expand the model's inputs to a video sequence level, aiming to see a richer video context from an near-global perspective. \textbf{Video-level Association}. Furthermore, we introduce two simple yet effective online dense temporal token association mechanisms to propagate the appearance and motion trajectory information of target via a video stream manner. \textbf{Modality Scalable}. We propose two novel gated perceivers that adaptively learn cross-modal representations via a gated attention mechanism, and subsequently compress them into the same set of model parameters via a one-shot training manner for multi-task inference. This new solution brings the following benefits: (i) The purified token sequences can serve as temporal prompts for the inference in the next video frames, whereby previous information is leveraged to guide future inference. (ii) Unlike multi-modal trackers that require independent training, our one-shot training scheme not only alleviates the training burden, but also improves model representation. Extensive experiments on visible and multi-modal benchmarks show that our {\modaltracker} achieves a new \textit{SOTA} performance. The code will be available at https://github.com/GXNU-ZhongLab/ODTrack.
- Abstract(参考訳): そこで我々は,オンライン高密度時間トークン学習( {\modaltracker} と呼ばれる)を用いたビデオレベルのモダリティ認識追跡モデルを提案する。
RGB、RGB+Thermal、RGB+Depth、RGB+Eventなど、さまざまなトラッキングタスクをサポートし、同じモデルアーキテクチャとパラメータを使用するように設計されている。
具体的には、我々のモデルは、3つのコアゴールで設計されている。
モデルの入力をビデオシーケンスレベルに拡張し、よりリッチなビデオコンテキストを言語に近い視点から見ることを目的としている。
\textbf{Video-level Association} の略。
さらに,2つの簡易かつ効果的なオンライン高密度時間トークン関連機構を導入し,映像ストリーム方式でターゲットの外観や動きの軌跡情報を伝達する。
\textbf{Modality Scalable}。
本稿では,2つの新しいゲート型パーシーバーを提案する。これは,ゲート型アテンション機構を用いてモーダル表現を適応的に学習し,その後,マルチタスク推論のためのワンショットトレーニング手法を用いてモデルパラメータの同じセットに圧縮する。
この新しいソリューションは以下の利点をもたらす。
i) 精製されたトークンシーケンスは、次のビデオフレームにおける推論の時間的プロンプトとして機能し、それによって、将来の推論を導くために、以前の情報を活用することができる。
(二)独立訓練を必要とするマルチモーダルトラッカーとは異なり、単発トレーニング方式は訓練負担を軽減するだけでなく、モデル表現も改善する。
可視的およびマルチモーダルなベンチマークに対する大規模な実験により、我々の {\modaltracker} は、新しい \textit{SOTA} のパフォーマンスを達成することが示された。
コードはhttps://github.com/GXNU-ZhongLab/ODTrack.comから入手できる。
関連論文リスト
- Visual and Memory Dual Adapter for Multi-Modal Object Tracking [34.406308400305385]
マルチモーダルトラッキングのためのより堅牢な表現を構築するために,新しいビジュアル・メモリ二重アダプタ(VMDA)を提案する。
我々は,識別的手がかりを補助的モダリティから支配的モダリティへ適応的に伝達する,シンプルだが効果的なビジュアルアダプターを開発した。
また、グローバルな時間的手がかりを記憶し、動的更新および検索操作を行うヒューマンメモリ機構にインスパイアされたメモリアダプタを設計する。
論文 参考訳(メタデータ) (2025-06-30T15:38:26Z) - Test-Time Training Done Right [61.8429380523577]
テスト時間トレーニング(TTT)モデルは、推論中にモデルの重みの一部を適応させることによってコンテキストをモデル化する。
既存のTT手法は、長文データを扱う上で有効性を示すのに苦労した。
我々は,大規模チャンクテストタイムトレーニング(LaCT)を開発し,ハードウェア利用率を桁違いに向上させる。
論文 参考訳(メタデータ) (2025-05-29T17:50:34Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Diff-MM: Exploring Pre-trained Text-to-Image Generation Model for Unified Multi-modal Object Tracking [45.341224888996514]
マルチモーダルオブジェクトトラッキングは、深度、熱赤外、イベントフロー、言語などの補助的なモダリティを統合する。
既存の手法は通常、RGBベースのトラッカーから始まり、トレーニングデータのみから補助的なモダリティを理解することを学ぶ。
本研究では,事前学習したテキスト・ツー・イメージ生成モデルのマルチモーダル理解機能を利用して,統合されたマルチモーダル・トラッカーDiff-MMを提案する。
論文 参考訳(メタデータ) (2025-05-19T01:42:13Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。
我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Visual Prompt Multi-Modal Tracking [71.53972967568251]
Visual Prompt Multi-modal Tracking (ViPT)は、凍結したトレーニング済み基礎モデルを様々な下流マルチモーダル追跡タスクに適応させるモーダル関連プロンプトを学習する。
ViPTは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、複数のダウンストリームトラッキングタスクにおいて、完全な微調整パラダイムを上回っている。
論文 参考訳(メタデータ) (2023-03-20T01:51:07Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - Video Moment Retrieval via Natural Language Queries [7.611718124254329]
本稿では,映像モーメント検索(VMR)のための新しい手法を提案する。
私たちのモデルはシンプルなアーキテクチャで、維持しながらより高速なトレーニングと推論を可能にします。
論文 参考訳(メタデータ) (2020-09-04T22:06:34Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。