論文の概要: QTrack: Query-Driven Reasoning for Multi-modal MOT
- arxiv url: http://arxiv.org/abs/2603.13759v1
- Date: Sat, 14 Mar 2026 05:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.388604
- Title: QTrack: Query-Driven Reasoning for Multi-modal MOT
- Title(参考訳): QTrack: マルチモーダルMOTのためのクエリ駆動型推論
- Authors: Tajamul Ashraf, Tavaheed Tariq, Sonia Yadav, Abrar Ul Riyaz, Wasif Tak, Moloud Abdar, Janibul Bashir,
- Abstract要約: マルチオブジェクトトラッキング(MOT)は、伝統的に、ユーザーが特定したターゲットを選択的に推論することなく、ビデオ内のすべてのオブジェクトを推定することに重点を置いてきた。
本稿では,自然言語クエリに規定された時間的推論問題としてトラッキングを定式化する,クエリ駆動型トラッキングパラダイムを提案する。
本稿では、マルチモーダル推論とトラッキング指向のローカライゼーションを統合した、エンドツーエンドの視覚言語モデルQTrackを提案する。
- 参考スコア(独自算出の注目度): 1.9981885081131854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-object tracking (MOT) has traditionally focused on estimating trajectories of all objects in a video, without selectively reasoning about user-specified targets under semantic instructions. In this work, we introduce a query-driven tracking paradigm that formulates tracking as a spatiotemporal reasoning problem conditioned on natural language queries. Given a reference frame, a video sequence, and a textual query, the goal is to localize and track only the target(s) specified in the query while maintaining temporal coherence and identity consistency. To support this setting, we construct RMOT26, a large-scale benchmark with grounded queries and sequence-level splits to prevent identity leakage and enable robust evaluation of generalization. We further present QTrack, an end-to-end vision-language model that integrates multimodal reasoning with tracking-oriented localization. Additionally, we introduce a Temporal Perception-Aware Policy Optimization strategy with structured rewards to encourage motion-aware reasoning. Extensive experiments demonstrate the effectiveness of our approach for reasoning-centric, language-guided tracking. Code and data are available at https://github.com/gaash-lab/QTrack
- Abstract(参考訳): マルチオブジェクト追跡(MOT)は、伝統的に、セマンティックインストラクションの下でユーザーが特定したターゲットを選択的に推論することなく、ビデオ内のすべてのオブジェクトの軌跡を推定することに焦点を当ててきた。
本研究では,自然言語クエリに規定された時空間的推論問題としてトラッキングを定式化する,クエリ駆動型トラッキングパラダイムを提案する。
参照フレーム、ビデオシーケンス、テキストクエリが与えられた場合、ゴールは、時間的コヒーレンスとアイデンティティの一貫性を維持しながら、クエリで指定されたターゲットのみをローカライズし、追跡することである。
この設定をサポートするため,大規模ベンチマークであるRMOT26を構築した。
さらに、マルチモーダル推論とトラッキング指向のローカライゼーションを統合した、エンドツーエンドの視覚言語モデルQTrackを提案する。
さらに、動作認識推論を促進するため、構造化報酬を伴う時間知覚対応政策最適化戦略を導入する。
広範囲な実験により、推論中心の言語誘導トラッキングに対するアプローチの有効性が実証された。
コードとデータはhttps://github.com/gaash-lab/QTrackで公開されている。
関連論文リスト
- ReasoningTrack: Chain-of-Thought Reasoning for Long-term Vision-Language Tracking [18.491855733401742]
本稿では,事前学習型視覚言語モデルQwen2.5-VLに基づく推論に基づく視覚言語追跡フレームワークReasoningTrackを提案する。
更新された言語記述を埋め込み、それらを視覚機能とともにトラッキングバックボーンネットワークに統合する。
さらに,200の動画シーケンスを含むTNLLTと呼ばれる大規模長期視覚言語追跡ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2025-08-07T10:02:07Z) - ReaMOT: A Benchmark and Framework for Reasoning-based Multi-Object Tracking [23.76697700853566]
我々はReaMOT(Reasoning-based Multi-Object Tracking)と呼ばれる新しいタスクを提案する。
ReaMOTはより困難なタスクであり、言語命令と推論特性と一致するオブジェクトを正確に推論し、オブジェクトの軌道を追跡する必要がある。
12のデータセット上に構築された推論に基づくマルチオブジェクト追跡ベンチマークであるReaMOT Challengeを構築した。
論文 参考訳(メタデータ) (2025-05-26T17:55:19Z) - Less is More: Token Context-aware Learning for Object Tracking [20.222950380244377]
LMTrackはトークンコンテキスト対応トラッキングパイプラインである。
効率的な視覚追跡のために、高品質な参照トークンを自動的に学習する。
GOT-10K、TrackingNet、LaSOTなどのトラッキングベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-01-01T07:05:31Z) - SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking [34.90147791481045]
SynCLは、検出と追跡のためのマルチタスク学習を共用するために設計された、新しいプラグアンドプレイのシナジスティックトレーニング戦略である。
重み付きクロスアテンションに基づくデコーダのためのタスク固有ハイブリッドマッチングモジュールを提案する。
また、追跡クエリに対する自己中心的な注意の障壁を突破するために、インスタンス対応のContrastive Learningを導入します。
論文 参考訳(メタデータ) (2024-11-11T08:18:49Z) - RTracker: Recoverable Tracking via PN Tree Structured Memory [71.05904715104411]
本稿では,木構造メモリを用いてトラッカーと検出器を動的に関連付け,自己回復を可能にするRTrackerを提案する。
具体的には,正負と負のターゲットサンプルを時系列に保存し,維持する正負のツリー構造メモリを提案する。
我々の中核となる考え方は、正と負の目標カテゴリーの支持サンプルを用いて、目標損失の信頼性評価のための相対的距離に基づく基準を確立することである。
論文 参考訳(メタデータ) (2024-03-28T08:54:40Z) - Tracking with Human-Intent Reasoning [64.69229729784008]
この作業では、新しいトラッキングタスクであるインストラクショントラッキングを提案している。
ビデオフレーム内で自動的にトラッキングを実行するようにトラッカーに要求する暗黙の追跡命令を提供する。
TrackGPTは複雑な推論ベースの追跡を行うことができる。
論文 参考訳(メタデータ) (2023-12-29T03:22:18Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Tracking by Joint Local and Global Search: A Target-aware Attention
based Approach [63.50045332644818]
本研究では、ロバストな追跡のための局所的・グローバルな共同探索を行うための新たな目標認識型アテンション機構(TANet)を提案する。
具体的には、ターゲットオブジェクトパッチと連続ビデオフレームの特徴を抽出し、それらをデコーダネットワークに追従して、ターゲットを意識したグローバルアテンションマップを生成する。
追跡手順において、ロバストな追跡のための候補探索領域を探索することにより、ターゲット認識の注意を複数のトラッカーと統合する。
論文 参考訳(メタデータ) (2021-06-09T06:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。