論文の概要: Tracking with Human-Intent Reasoning
- arxiv url: http://arxiv.org/abs/2312.17448v1
- Date: Fri, 29 Dec 2023 03:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 13:39:51.807391
- Title: Tracking with Human-Intent Reasoning
- Title(参考訳): ヒューマンインテント推論によるトラッキング
- Authors: Jiawen Zhu, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Bin Luo, Huchuan
Lu, Yifeng Geng, Xuansong Xie
- Abstract要約: この作業では、新しいトラッキングタスクであるインストラクショントラッキングを提案している。
ビデオフレーム内で自動的にトラッキングを実行するようにトラッカーに要求する暗黙の追跡命令を提供する。
TrackGPTは複雑な推論ベースの追跡を行うことができる。
- 参考スコア(独自算出の注目度): 64.69229729784008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in perception modeling have significantly improved the performance
of object tracking. However, the current methods for specifying the target
object in the initial frame are either by 1) using a box or mask template, or
by 2) providing an explicit language description. These manners are cumbersome
and do not allow the tracker to have self-reasoning ability. Therefore, this
work proposes a new tracking task -- Instruction Tracking, which involves
providing implicit tracking instructions that require the trackers to perform
tracking automatically in video frames. To achieve this, we investigate the
integration of knowledge and reasoning capabilities from a Large
Vision-Language Model (LVLM) for object tracking. Specifically, we propose a
tracker called TrackGPT, which is capable of performing complex reasoning-based
tracking. TrackGPT first uses LVLM to understand tracking instructions and
condense the cues of what target to track into referring embeddings. The
perception component then generates the tracking results based on the
embeddings. To evaluate the performance of TrackGPT, we construct an
instruction tracking benchmark called InsTrack, which contains over one
thousand instruction-video pairs for instruction tuning and evaluation.
Experiments show that TrackGPT achieves competitive performance on referring
video object segmentation benchmarks, such as getting a new state-of the-art
performance of 66.5 $\mathcal{J}\&\mathcal{F}$ on Refer-DAVIS. It also
demonstrates a superior performance of instruction tracking under new
evaluation protocols. The code and models are available at
\href{https://github.com/jiawen-zhu/TrackGPT}{https://github.com/jiawen-zhu/TrackGPT}.
- Abstract(参考訳): 知覚モデリングの進歩は、物体追跡の性能を大幅に改善した。
しかし、初期フレームのターゲットオブジェクトを特定する現在のメソッドは、どちらかである。
1)ボックスまたはマスクテンプレートを使用するか、または
2) 明示的な言語記述を提供する。
これらの方法は面倒で、トラッカーが自己推論能力を持つことを許さない。
そこで本研究では,トラッカがビデオフレーム内で自動的にトラッキングを行うための暗黙的なトラッキング命令を提供する,新たなトラッキングタスク -- 命令追跡を提案する。
本研究では,物体追跡のための大規模視覚言語モデル(lvlm)から知識と推論能力の統合について検討する。
具体的には,複雑な推論に基づく追跡が可能なtrackgptと呼ばれるトラッカーを提案する。
TrackGPTは、まずLVLMを使用して、追跡命令を理解し、どのターゲットを追跡するかの手がかりを埋め込みを参照させる。
そして、知覚成分は、埋め込みに基づいて追跡結果を生成する。
TrackGPTの性能を評価するため,インストラクション・チューニングと評価のためのインストラクション・ビデオ・ペアが1万を超えるインストラクション・トラッキング・ベンチマークであるInsTrackを構築した。
実験によれば、 trackgpt はビデオオブジェクトのセグメンテーションベンチマークを参照して性能が向上し、例えば 66.5 $\mathcal{j}\&\mathcal{f}$ on refer-davis という新しいパフォーマンスが得られる。
また、新しい評価プロトコル下での命令追跡の優れた性能を示す。
コードとモデルは \href{https://github.com/jiawen-zhu/TrackGPT}{https://github.com/jiawen-zhu/TrackGPT} で公開されている。
関連論文リスト
- ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model [29.702895846058265]
Vision-Language(VL)トラッカーは、様々なアプリケーションにおける汎用性を高めるために、追加の自然言語記述を活用することを提案している。
VLトラッカーは、追跡性能の点で依然としてState-of-The-Art (SoTA)ビジュアルトラッカーより劣っている。
本稿では,MLLM(Multimodal Large Language Model)における多言語知識の豊富な活用を目的としたChatTrackerを提案し,高品質な言語記述を生成する。
論文 参考訳(メタデータ) (2024-11-04T02:43:55Z) - OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning [33.521077115333696]
我々は、OneTrackerと呼ばれる様々なトラッキングタスクを統合するための一般的なフレームワークを提案する。
OneTrackerは最初に、Foundation Trackerと呼ばれるRGBトラッカーで大規模な事前トレーニングを行う。
次に、他のモダリティ情報をプロンプトとみなし、Foundation Tracker上にPrompt Trackerを構築する。
論文 参考訳(メタデータ) (2024-03-14T17:59:13Z) - CoTracker: It is Better to Track Together [70.63040730154984]
CoTrackerは、長いビデオシーケンスで多数の2Dポイントを追跡するトランスフォーマーベースのモデルである。
関節トラッキングはトラッキング精度とロバスト性を大幅に改善し、CoTrackerはカメラビューの外側に隠された点や点を追跡することができる。
論文 参考訳(メタデータ) (2023-07-14T21:13:04Z) - OmniTracker: Unifying Object Tracking by Tracking-with-Detection [119.51012668709502]
OmniTrackerは、完全に共有されたネットワークアーキテクチャ、モデルウェイト、推論パイプラインですべてのトラッキングタスクを解決するために提供されている。
LaSOT、TrackingNet、DAVIS16-17、MOT17、MOTS20、YTVIS19を含む7つの追跡データセットの実験は、OmniTrackerがタスク固有の追跡モデルと統合された追跡モデルの両方よりも、オンパーまたはそれ以上の結果を達成することを示した。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - Context-aware Visual Tracking with Joint Meta-updating [11.226947525556813]
本稿では,シーケンス全体に沿った情報を活用することで,両ブランチを共同でメタ更新する,表現空間上のトラッカーを最適化するコンテキスト認識追跡モデルを提案する。
提案手法は,VOT2018におけるEAOスコアの0.514を40FPSの速度で達成し,基礎となるトラッカーの精度とロバスト性を向上できることを示す。
論文 参考訳(メタデータ) (2022-04-04T14:16:00Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z) - Unsupervised Deep Representation Learning for Real-Time Tracking [137.69689503237893]
視覚追跡のための教師なし学習手法を提案する。
教師なし学習の動機は、ロバストなトラッカーが双方向トラッキングに有効であるべきだということです。
我々は,シームズ相関フィルタネットワーク上にフレームワークを構築し,教師なし学習を容易にするために,多フレーム検証方式とコスト感受性損失を提案する。
論文 参考訳(メタデータ) (2020-07-22T08:23:12Z) - Robust Visual Object Tracking with Two-Stream Residual Convolutional
Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。
私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。
トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文 参考訳(メタデータ) (2020-05-13T19:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。