論文の概要: Unifying Tracking and Image-Video Object Detection
- arxiv url: http://arxiv.org/abs/2211.11077v2
- Date: Sun, 19 Nov 2023 23:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 20:51:44.163208
- Title: Unifying Tracking and Image-Video Object Detection
- Title(参考訳): 追尾と映像物体検出の統一化
- Authors: Peirong Liu, Rui Wang, Pengchuan Zhang, Omid Poursaeed, Yipin Zhou,
Xuefei Cao, Sreya Dutta Roy, Ashish Shah, Ser-Nam Lim
- Abstract要約: TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
- 参考スコア(独自算出の注目度): 54.91658924277527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objection detection (OD) has been one of the most fundamental tasks in
computer vision. Recent developments in deep learning have pushed the
performance of image OD to new heights by learning-based, data-driven
approaches. On the other hand, video OD remains less explored, mostly due to
much more expensive data annotation needs. At the same time, multi-object
tracking (MOT) which requires reasoning about track identities and
spatio-temporal trajectories, shares similar spirits with video OD. However,
most MOT datasets are class-specific (e.g., person-annotated only), which
constrains a model's flexibility to perform tracking on other objects. We
propose TrIVD (Tracking and Image-Video Detection), the first framework that
unifies image OD, video OD, and MOT within one end-to-end model. To handle the
discrepancies and semantic overlaps of category labels across datasets, TrIVD
formulates detection/tracking as grounding and reasons about object categories
via visual-text alignments. The unified formulation enables cross-dataset,
multi-task training, and thus equips TrIVD with the ability to leverage
frame-level features, video-level spatio-temporal relations, as well as track
identity associations. With such joint training, we can now extend the
knowledge from OD data, that comes with much richer object category
annotations, to MOT and achieve zero-shot tracking capability. Experiments
demonstrate that multi-task co-trained TrIVD outperforms single-task baselines
across all image/video OD and MOT tasks. We further set the first baseline on
the new task of zero-shot tracking.
- Abstract(参考訳): オブジェクト指向検出(OD)はコンピュータビジョンにおける最も基本的なタスクの1つである。
近年のディープラーニングの進歩により、画像ODのパフォーマンスは学習ベースのデータ駆動アプローチによって新たな高みへと押し上げられている。
一方、video odは、より高価なデータアノテーションのニーズのために、あまり探求されていない。
同時に、トラックの同一性や時空間軌跡の推論を必要とするマルチオブジェクト追跡(MOT)も、ビデオODと類似の精神を共有している。
しかし、ほとんどのmotデータセットはクラス固有(例えば、person-annotated only)であり、モデルが他のオブジェクトを追跡する柔軟性を制約している。
本稿では、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルで統合する最初のフレームワークであるTrIVD(Tracking and Image-Video Detection)を提案する。
データセット間のカテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDはビジュアルテキストアライメントによるオブジェクトカテゴリの検出/追跡を根拠と理由として定式化している。
統合された定式化により、クロスデータセット、マルチタスクのトレーニングが可能になり、TrIVDにフレームレベルの特徴、ビデオレベルの時空間関係、およびアイデンティティの関連性を追跡することができる。
このような共同トレーニングにより、よりリッチなオブジェクトカテゴリアノテーションを備えたODデータからの知識をMOTに拡張し、ゼロショット追跡機能を実現することができます。
実験により、マルチタスクで訓練されたTrIVDは、すべての画像/ビデオODおよびMOTタスクでシングルタスクベースラインを上回っていることが示された。
さらに、ゼロショットトラッキングという新しいタスクに、最初のベースラインを設定します。
関連論文リスト
- Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - QDTrack: Quasi-Dense Similarity Learning for Appearance-Only Multiple
Object Tracking [73.52284039530261]
本稿では,コントラスト学習のために,画像上に数百のオブジェクト領域を密集した擬似Dense類似性学習を提案する。
得られた特徴空間は、オブジェクトアソシエーションの推論時間において、単純な近接探索を許容する。
我々の類似性学習方式は,ビデオデータに限らず,静的入力でも有効なインスタンス類似性を学ぶことができることを示す。
論文 参考訳(メタデータ) (2022-10-12T15:47:36Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Probabilistic 3D Multi-Modal, Multi-Object Tracking for Autonomous
Driving [22.693895321632507]
異なる訓練可能なモジュールからなる確率的、マルチモーダル、マルチオブジェクトトラッキングシステムを提案する。
本手法はNuScenes Trackingデータセットの現在の状態を上回っていることを示した。
論文 参考訳(メタデータ) (2020-12-26T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。