論文の概要: TrackDiffusion: Multi-object Tracking Data Generation via Diffusion
Models
- arxiv url: http://arxiv.org/abs/2312.00651v1
- Date: Fri, 1 Dec 2023 15:24:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 14:09:19.050170
- Title: TrackDiffusion: Multi-object Tracking Data Generation via Diffusion
Models
- Title(参考訳): trackdiffusion:拡散モデルによるマルチオブジェクト追跡データ生成
- Authors: Pengxiang Li, Zhili Liu, Kai Chen, Lanqing Hong, Yunzhi Zhuge, Dit-Yan
Yeung, Huchuan Lu, Xu Jia
- Abstract要約: TrackDiffusionは、トラックレットから連続的なビデオシーケンスを生成するように設計された新しいアーキテクチャである。
生成したビデオシーケンスを,MOT(Multi-object Tracking)システムのトレーニングに活用できることを初めて実証した。
提案手法はTrackAPの8.7とTrackAPの11.8をYTVISデータセットの_50$で改善する。
- 参考スコア(独自算出の注目度): 81.81382481184889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have gained prominence in generating data for perception
tasks such as image classification and object detection. However, the potential
in generating high-quality tracking sequences, a crucial aspect in the field of
video perception, has not been fully investigated. To address this gap, we
propose TrackDiffusion, a novel architecture designed to generate continuous
video sequences from the tracklets. TrackDiffusion represents a significant
departure from the traditional layout-to-image (L2I) generation and copy-paste
synthesis focusing on static image elements like bounding boxes by empowering
image diffusion models to encompass dynamic and continuous tracking
trajectories, thereby capturing complex motion nuances and ensuring instance
consistency among video frames. For the first time, we demonstrate that the
generated video sequences can be utilized for training multi-object tracking
(MOT) systems, leading to significant improvement in tracker performance.
Experimental results show that our model significantly enhances instance
consistency in generated video sequences, leading to improved perceptual
metrics. Our approach achieves an improvement of 8.7 in TrackAP and 11.8 in
TrackAP$_{50}$ on the YTVIS dataset, underscoring its potential to redefine the
standards of video data generation for MOT tasks and beyond.
- Abstract(参考訳): 拡散モデルは画像分類や物体検出などの知覚タスクのためのデータ生成において顕著である。
しかし、映像知覚の分野で重要な側面である高品質な追跡シーケンスを生成する可能性については、十分に検討されていない。
このギャップに対処するために,トラックレットから連続的なビデオシーケンスを生成するように設計された新しいアーキテクチャであるtrackdiffusionを提案する。
trackdiffusionは、画像拡散モデルに動的かつ連続的な追跡軌跡を包含させ、複雑な動きニュアンスをキャプチャし、ビデオフレーム間のインスタンス一貫性を確保することで、バウンディングボックスのような静的なイメージ要素に焦点を当てた従来のレイアウト・ツー・イメージ(l2i)生成とコピー・ペースト合成とは大きく異なる。
生成したビデオシーケンスがMOT(Multi-object Tracking)システムのトレーニングに利用できることを初めて実証し、トラッカー性能が大幅に向上した。
実験の結果,本モデルは生成した映像列のインスタンス一貫性を著しく向上させ,知覚指標の改善に繋がることがわかった。
提案手法は,TrackAPの8.7とTrackAP$_{50}$11.8をYTVISデータセット上で実現し,MOTタスク以降におけるビデオデータ生成の標準を再定義する可能性を示している。
関連論文リスト
- Zero-Shot Open-Vocabulary Tracking with Large Pre-Trained Models [28.304047711166056]
大規模事前訓練モデルでは、野生の2次元静的画像中の物体の検出とセグメンテーションの進歩が期待できる。
このような大規模なトレーニング済みの静的イメージモデルを,オープン語彙のビデオトラッキングに再利用することは可能だろうか?
本稿では,オープンボキャブラリ検出器,セグメンタ,高密度光流推定器を,任意のカテゴリの物体を2Dビデオで追跡・セグメント化するモデルに再構成する。
論文 参考訳(メタデータ) (2023-10-10T20:25:30Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video
Restoration [85.3323211054274]
ビデオシーケンス内のフレーム間関係を適切にモデル化する方法は、ビデオ復元(VR)において重要であるが未解決の課題である。
本研究では,この問題を解決するために,教師なしフローアライメントシーケンス・ツー・シーケンス・モデル(S2SVR)を提案する。
S2SVRは、ビデオデブリ、ビデオスーパー解像度、圧縮されたビデオ品質向上など、複数のVRタスクにおいて優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-05-20T14:14:48Z) - Motion-aware Dynamic Graph Neural Network for Video Compressive Sensing [17.441522549583805]
ビデオスナップショットイメージング(SCI)は、2D検出器を使用してシーケンシャルなビデオフレームをキャプチャし、それらを1つの測定値に圧縮する。
既存の再建手法の多くは、長期の空間的および時間的依存関係をキャプチャできない。
本稿では,空間内の画素間の非局所的相互作用を効率的にモデル化するための,グラフニューラルネットワーク(GNN)に基づくフレキシブルでロバストなアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-01T12:13:46Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。