論文の概要: TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking
- arxiv url: http://arxiv.org/abs/2510.07134v1
- Date: Wed, 08 Oct 2025 15:29:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.596516
- Title: TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking
- Title(参考訳): TrackVLA++: 身体的視覚追跡のためのVLAモデルにおける推論とメモリ能力の開放
- Authors: Jiahang Liu, Yunpeng Qi, Jiazhao Zhang, Minghan Li, Shaoan Wang, Kui Wu, Hanjing Ye, Hong Zhang, Zhibo Chen, Fangwei Zhong, Zhizheng Zhang, He Wang,
- Abstract要約: 本稿では,空間的推論機構と時間的同定メモリ(TIM)という2つの重要なモジュールによる視覚追跡を具体化する新しいモデルであるTrackVLA++を提案する。
TrackVLA++は、エゴセントリックな設定とマルチカメラ設定の両方で、公開ベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 30.955088934475928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied Visual Tracking (EVT) is a fundamental ability that underpins practical applications, such as companion robots, guidance robots and service assistants, where continuously following moving targets is essential. Recent advances have enabled language-guided tracking in complex and unstructured scenes. However, existing approaches lack explicit spatial reasoning and effective temporal memory, causing failures under severe occlusions or in the presence of similar-looking distractors. To address these challenges, we present TrackVLA++, a novel Vision-Language-Action (VLA) model that enhances embodied visual tracking with two key modules, a spatial reasoning mechanism and a Target Identification Memory (TIM). The reasoning module introduces a Chain-of-Thought paradigm, termed Polar-CoT, which infers the target's relative position and encodes it as a compact polar-coordinate token for action prediction. Guided by these spatial priors, the TIM employs a gated update strategy to preserve long-horizon target memory, ensuring spatiotemporal consistency and mitigating target loss during extended occlusions. Extensive experiments show that TrackVLA++ achieves state-of-the-art performance on public benchmarks across both egocentric and multi-camera settings. On the challenging EVT-Bench DT split, TrackVLA++ surpasses the previous leading approach by 5.1 and 12, respectively. Furthermore, TrackVLA++ exhibits strong zero-shot generalization, enabling robust real-world tracking in dynamic and occluded scenarios.
- Abstract(参考訳): Embodied Visual Tracking (EVT)は、移動目標を継続的に追従する補助ロボット、誘導ロボット、サービスアシスタントなどの実用的な応用を支える基本的な能力である。
近年の進歩により、複雑で非構造的な場面における言語誘導的な追跡が可能になった。
しかし、既存のアプローチでは、空間的推論と効果的な時間記憶が欠如しており、重度の閉塞や類似した注意散らしの存在下で障害を引き起こしている。
これらの課題に対処するため、我々は、空間的推論機構とターゲット識別メモリ(TIM)という2つの主要なモジュールで具体化された視覚的トラッキングを強化する新しいビジョン・ランゲージ・アクション(VLA)モデルであるTrackVLA++を提案する。
推論モジュールは、Polar-CoTと呼ばれるChain-of-Thoughtパラダイムを導入し、ターゲットの相対位置を推定し、アクション予測のためのコンパクトな極座標トークンとしてエンコードする。
これらの空間的先行性によって導かれるTIMは、長期水平目標メモリの保存、時空間整合性の確保、拡張オクルージョン時の目標損失軽減のためのゲート更新戦略を採用している。
大規模な実験によると、TrackVLA++は、エゴセントリックな設定とマルチカメラ設定の両方で、公開ベンチマークで最先端のパフォーマンスを実現している。
挑戦的なEVT-Bench DT分割で、TrackVLA++は、それぞれ5.1と12のリードアプローチを上回った。
さらに、TrackVLA++は強力なゼロショットの一般化を示し、動的および隠蔽されたシナリオで堅牢な現実世界のトラッキングを可能にする。
関連論文リスト
- NoTVLA: Narrowing of Dense Action Trajectories for Generalizable Robot Manipulation [54.87964060934928]
VLA(Vision-Language-Action)モデルは、現実の展開において重要な障壁に直面している。
本稿では,軌道の狭小化に焦点を絞った新しい手法として,軌道の狭小化(Narrowing of Trajectory)VLAフレームワークを提案する。
NoTVLAは2つのクリティカルな制約の下で動作しながら、pi0よりも優れたパフォーマンスと一般化を実現している。
論文 参考訳(メタデータ) (2025-10-04T18:26:55Z) - SocialTrack: Multi-Object Tracking in Complex Urban Traffic Scenes Inspired by Social Behavior [17.501890320034693]
本稿では,複雑な都市交通環境における小目標の追跡精度とロバスト性を高めるために,新しい多目的追跡フレームワークSocialTrackを提案する。
特殊小ターゲット検出器は、マルチスケールの特徴増強機構を用いて検出性能を向上させる。
UAVDTとMOT17データセットに関する大規模な実験は、SocialTrackが既存の最先端(SOTA)メソッドをいくつかの主要なメトリクスで上回っていることを示している。
論文 参考訳(メタデータ) (2025-08-18T09:53:32Z) - Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - TrackVLA: Embodied Visual Tracking in the Wild [34.03604806748204]
Embodied visual trackingは、Embodied AIの基本的なスキルであり、エージェントは、自我中心の視覚のみを使用して、動的環境における特定のターゲットに従うことができる。
既存のアプローチは通常、認識と計画のモジュラー分離を通じてこの問題に対処する。
本研究では,物体認識と軌道計画の相乗効果を学習する視覚・言語・行動モデルであるTrackVLAを提案する。
論文 参考訳(メタデータ) (2025-05-29T07:28:09Z) - RTracker: Recoverable Tracking via PN Tree Structured Memory [71.05904715104411]
本稿では,木構造メモリを用いてトラッカーと検出器を動的に関連付け,自己回復を可能にするRTrackerを提案する。
具体的には,正負と負のターゲットサンプルを時系列に保存し,維持する正負のツリー構造メモリを提案する。
我々の中核となる考え方は、正と負の目標カテゴリーの支持サンプルを用いて、目標損失の信頼性評価のための相対的距離に基づく基準を確立することである。
論文 参考訳(メタデータ) (2024-03-28T08:54:40Z) - Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for
Vision-Language Tracking [3.416427651955299]
単一のオブジェクトトラッキングは、最初の状態から、ビデオシーケンス内の特定のターゲットを見つけることを目的としている。ビジョンランゲージ(VL)トラッキングは、有望なアプローチとして登場した。
本稿では,VL追跡のためのターゲット中心のセマンティクスを徐々に探求する新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2023-11-28T02:28:12Z) - BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in Bird's-Eye View [54.48052449493636]
3Dシングルオブジェクトトラッキング(SOT)はコンピュータビジョンの基本課題であり、自律運転のようなアプリケーションにおいて重要な役割を果たす。
BEVTrackは、シンプルだが効果的な動きに基づくトラッキング手法である。
我々は,BEVTrackが200FPSで動作しながら最先端の結果を達成し,リアルタイム適用性を実現していることを示す。
論文 参考訳(メタデータ) (2023-09-05T12:42:26Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。