論文の概要: Learning to Track Instance from Single Nature Language Description
- arxiv url: http://arxiv.org/abs/2605.07064v1
- Date: Fri, 08 May 2026 00:17:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.693538
- Title: Learning to Track Instance from Single Nature Language Description
- Title(参考訳): 単一自然言語記述からインスタンスを追跡する学習
- Authors: Yaozong Zheng, Bineng Zhong, Qihua Liang, Shuimu Zeng, Haiying Xia, Shuxiang Song,
- Abstract要約: 我々は、新しい自己教師型視覚言語トラッカーであるtextbftracker を紹介する。
言語記述によって参照対象を追跡することができる。
VLトラッキングベンチマークの実験では、トラッカーがSOTAの自己管理手法を超越していることが示されている。
- 参考スコア(独自算出の注目度): 35.712922010701014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How to achieve vision-language (VL) tracking using natural language descriptions from a video sequence \textbf{without relying on any bounding-box ground truth}? In this work, we achieve this goal by tackling \textit{self-supervised VL tracking}, which aims to evaluate tracking capabilities guided by natural language descriptions. We introduce \textbf{\tracker}, a novel self-supervised VL tracker that is capable of tracking any referred object by a language description. Unlike traditional methods that equally fuse all language and visual tokens, we propose an efficient Dynamic Token Aggregation Module, which treats each visual token \textbf{unequally}. The module consists of three main steps: i) Based on an anchor token, it selects multiple important target tokens from the template frame. ii) The selected target tokens are merged according to their attention scores and aggregated into the language tokens, thereby eliminating redundant visual token noise and enhancing semantic alignment. iii) Finally, the fused language tokens serve as guiding signals to extract potential target tokens from the search frame and propagate them to subsequent frames, enhancing temporal prompts and encouraging the tracker to autonomously learn instance tracking from unlabeled videos. This new modeling approach enables the effective self-supervised learning of language-guided tracking representations without the need for large-scale bounding box annotations. Extensive experiments on VL tracking benchmarks show that {\tracker} surpasses SOTA self-supervised methods.
- Abstract(参考訳): ビデオシーケンス \textbf{without からの自然言語記述を用いた視覚言語(VL)追跡の実現法
本研究は,自然言語記述によるトラッキング機能の評価を目的とした,textit{self-supervised VL tracking} に取り組むことで,この目標を達成する。
本稿では,言語記述による参照対象の追跡が可能な,新しい自己教師型VLトラッカーである‘textbf{\tracker}を紹介する。
すべての言語と視覚トークンを等しく融合させる従来の方法とは異なり、各視覚トークンを扱い、効率的な動的トークン集約モジュールを提案する。
モジュールは3つの主要なステップから構成される。
i)アンカートークンに基づいて、テンプレートフレームから複数の重要なターゲットトークンを選択する。
二 選択した目標トークンは、その注意点に応じてマージし、言語トークンに集約することにより、冗長な視覚トークンノイズを排除し、セマンティックアライメントを強化する。
三 最後に、融合言語トークンは、検索フレームから潜在的標的トークンを抽出し、後続のフレームに伝播し、時間的プロンプトを強化し、追跡者が未ラベルのビデオからインスタンス追跡を自律的に学習するように促すための誘導信号として機能する。
この新しいモデリングアプローチにより、大規模境界ボックスアノテーションを必要とせずに、言語誘導型トラッキング表現の効果的な自己教師付き学習が可能になる。
VL追跡ベンチマークの大規模な実験により、 {\tracker} は SOTA の自己管理手法を超越していることが示された。
関連論文リスト
- ATCTrack: Aligning Target-Context Cues with Dynamic Target States for Robust Vision-Language Tracking [0.6143225301480709]
視覚言語追跡は、初期フレームに提供されるテンプレートパッチと言語記述を用いて、ビデオシーケンス内の対象物を特定することを目的としている。
ロバストなトラッキングを実現するためには、ターゲットの特徴を特徴付けるだけでなく、ターゲットに関連するコンテキストの特徴を活用することが不可欠である。
動的ターゲット状態に適応したマルチモーダルキューが得られるATCTrackという新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2025-07-26T09:05:12Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - Less is More: Token Context-aware Learning for Object Tracking [20.222950380244377]
LMTrackはトークンコンテキスト対応トラッキングパイプラインである。
効率的な視覚追跡のために、高品質な参照トークンを自動的に学習する。
GOT-10K、TrackingNet、LaSOTなどのトラッキングベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-01-01T07:05:31Z) - Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for
Vision-Language Tracking [3.416427651955299]
単一のオブジェクトトラッキングは、最初の状態から、ビデオシーケンス内の特定のターゲットを見つけることを目的としている。ビジョンランゲージ(VL)トラッキングは、有望なアプローチとして登場した。
本稿では,VL追跡のためのターゲット中心のセマンティクスを徐々に探求する新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2023-11-28T02:28:12Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。