論文の概要: Towards Unified Token Learning for Vision-Language Tracking
- arxiv url: http://arxiv.org/abs/2308.14103v1
- Date: Sun, 27 Aug 2023 13:17:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 16:56:58.248777
- Title: Towards Unified Token Learning for Vision-Language Tracking
- Title(参考訳): 視覚言語追跡のための統一トークン学習に向けて
- Authors: Yaozong Zheng and Bineng Zhong and Qihua Liang and Guorong Li and
Rongrong Ji and Xianxian Li
- Abstract要約: 本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
- 参考スコア(独自算出の注目度): 65.96561538356315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a simple, flexible and effective vision-language
(VL) tracking pipeline, termed \textbf{MMTrack}, which casts VL tracking as a
token generation task. Traditional paradigms address VL tracking task
indirectly with sophisticated prior designs, making them over-specialize on the
features of specific architectures or mechanisms. In contrast, our proposed
framework serializes language description and bounding box into a sequence of
discrete tokens. In this new design paradigm, all token queries are required to
perceive the desired target and directly predict spatial coordinates of the
target in an auto-regressive manner. The design without other prior modules
avoids multiple sub-tasks learning and hand-designed loss functions,
significantly reducing the complexity of VL tracking modeling and allowing our
tracker to use a simple cross-entropy loss as unified optimization objective
for VL tracking task. Extensive experiments on TNL2K, LaSOT, LaSOT$_{\rm{ext}}$
and OTB99-Lang benchmarks show that our approach achieves promising results,
compared to other state-of-the-arts.
- Abstract(参考訳): 本稿では,VLトラッキングをトークン生成タスクとして用いた,シンプルで柔軟な視覚言語(VL)トラッキングパイプラインである「textbf{MMTrack}」を提案する。
従来のパラダイムでは、VLトラッキングタスクを高度な事前設計で間接的に扱い、特定のアーキテクチャやメカニズムの特徴を過度に特殊化する。
対照的に,提案フレームワークでは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリは、望まれるターゲットを認識し、自動回帰的にターゲットの空間座標を直接予測するために必要である。
他のモジュールを持たない設計では、複数のサブタスク学習や手書きの損失関数を回避し、VLトラッキングモデリングの複雑さを著しく低減し、VLトラッキングタスクの統一最適化目的として単純なクロスエントロピーロスを使用できる。
TNL2K, LaSOT, LaSOT$_{\rm{ext}}$およびOTB99-Langベンチマークに関する大規模な実験は、我々の手法が他の最先端技術と比較して有望な結果が得られることを示している。
関連論文リスト
- Hierarchical IoU Tracking based on Interval [21.555469501789577]
マルチオブジェクト追跡(MOT)は、フレーム間で与えられたクラスのすべてのターゲットを検出し、関連付けることを目的としている。
HITと呼ばれる階層型IoU追跡フレームワークを提案し、トラックレット間隔を先行として利用して階層型追跡を実現する。
提案手法は,MOT17,KITTI,DanceTrack,VisDroneの4つのデータセットに対して有望な性能を実現する。
論文 参考訳(メタデータ) (2024-06-19T07:03:18Z) - Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for
Vision-Language Tracking [3.416427651955299]
単一のオブジェクトトラッキングは、最初の状態から、ビデオシーケンス内の特定のターゲットを見つけることを目的としている。ビジョンランゲージ(VL)トラッキングは、有望なアプローチとして登場した。
本稿では,VL追跡のためのターゲット中心のセマンティクスを徐々に探求する新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2023-11-28T02:28:12Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Towards Sequence-Level Training for Visual Tracking [60.95799261482857]
本研究は、強化学習に基づく視覚追跡のためのシーケンスレベルのトレーニング戦略を導入する。
4つの代表的な追跡モデル、SiamRPN++、SiamAttn、TransT、TrDiMPは、提案手法をトレーニングに取り入れることで一貫して改善されている。
論文 参考訳(メタデータ) (2022-08-11T13:15:36Z) - Transformer-based assignment decision network for multiple object
tracking [0.0]
本稿では,データアソシエーションに取り組むトランスフォーマーベースのアサインメント決定ネットワーク(TADN)について,推論中に明示的な最適化を必要とせずに紹介する。
提案手法は,トラッカーとしての単純な性質にもかかわらず,ほとんどの評価指標において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-08-06T19:47:32Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。