論文の概要: TrackDiffusion: Multi-object Tracking Data Generation via Diffusion
Models
- arxiv url: http://arxiv.org/abs/2312.00651v1
- Date: Fri, 1 Dec 2023 15:24:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 14:09:19.050170
- Title: TrackDiffusion: Multi-object Tracking Data Generation via Diffusion
Models
- Title(参考訳): trackdiffusion:拡散モデルによるマルチオブジェクト追跡データ生成
- Authors: Pengxiang Li, Zhili Liu, Kai Chen, Lanqing Hong, Yunzhi Zhuge, Dit-Yan
Yeung, Huchuan Lu, Xu Jia
- Abstract要約: TrackDiffusionは、トラックレットから連続的なビデオシーケンスを生成するように設計された新しいアーキテクチャである。
生成したビデオシーケンスを,MOT(Multi-object Tracking)システムのトレーニングに活用できることを初めて実証した。
提案手法はTrackAPの8.7とTrackAPの11.8をYTVISデータセットの_50$で改善する。
- 参考スコア(独自算出の注目度): 81.81382481184889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have gained prominence in generating data for perception
tasks such as image classification and object detection. However, the potential
in generating high-quality tracking sequences, a crucial aspect in the field of
video perception, has not been fully investigated. To address this gap, we
propose TrackDiffusion, a novel architecture designed to generate continuous
video sequences from the tracklets. TrackDiffusion represents a significant
departure from the traditional layout-to-image (L2I) generation and copy-paste
synthesis focusing on static image elements like bounding boxes by empowering
image diffusion models to encompass dynamic and continuous tracking
trajectories, thereby capturing complex motion nuances and ensuring instance
consistency among video frames. For the first time, we demonstrate that the
generated video sequences can be utilized for training multi-object tracking
(MOT) systems, leading to significant improvement in tracker performance.
Experimental results show that our model significantly enhances instance
consistency in generated video sequences, leading to improved perceptual
metrics. Our approach achieves an improvement of 8.7 in TrackAP and 11.8 in
TrackAP$_{50}$ on the YTVIS dataset, underscoring its potential to redefine the
standards of video data generation for MOT tasks and beyond.
- Abstract(参考訳): 拡散モデルは画像分類や物体検出などの知覚タスクのためのデータ生成において顕著である。
しかし、映像知覚の分野で重要な側面である高品質な追跡シーケンスを生成する可能性については、十分に検討されていない。
このギャップに対処するために,トラックレットから連続的なビデオシーケンスを生成するように設計された新しいアーキテクチャであるtrackdiffusionを提案する。
trackdiffusionは、画像拡散モデルに動的かつ連続的な追跡軌跡を包含させ、複雑な動きニュアンスをキャプチャし、ビデオフレーム間のインスタンス一貫性を確保することで、バウンディングボックスのような静的なイメージ要素に焦点を当てた従来のレイアウト・ツー・イメージ(l2i)生成とコピー・ペースト合成とは大きく異なる。
生成したビデオシーケンスがMOT(Multi-object Tracking)システムのトレーニングに利用できることを初めて実証し、トラッカー性能が大幅に向上した。
実験の結果,本モデルは生成した映像列のインスタンス一貫性を著しく向上させ,知覚指標の改善に繋がることがわかった。
提案手法は,TrackAPの8.7とTrackAP$_{50}$11.8をYTVISデータセット上で実現し,MOTタスク以降におけるビデオデータ生成の標準を再定義する可能性を示している。
関連論文リスト
- DINTR: Tracking via Diffusion-based Interpolation [12.130669304428565]
本研究は,トラッキングタスクを定式化するための拡散に基づく新しい手法を提案する。
我々のInterpolation TrackeR(DINTR)は、将来性のある新しいパラダイムを示し、5つの指標表現にまたがる7つのベンチマークにおいて優れた乗法を実現する。
論文 参考訳(メタデータ) (2024-10-14T00:41:58Z) - E-Motion: Future Motion Simulation via Event Sequence Diffusion [86.80533612211502]
イベントベースのセンサーは、これまで達成できなかった詳細と精度で将来の動きを予測するユニークな機会を提供する可能性がある。
本稿では,映像拡散モデルの強力な学習能力とイベントカメラのリッチな動作情報とを,モーションシミュレーションフレームワークとして統合することを提案する。
本研究は,コンピュータビジョンシステムの解釈能力と予測精度の向上に向けた今後の研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2024-10-11T09:19:23Z) - Video Diffusion Models are Training-free Motion Interpreter and Controller [20.361790608772157]
本稿では,映像拡散モデルにおける動き認識機能を理解し,ローカライズし,操作するための新しい視点を提案する。
コンテンツ相関情報とフィルタリング動作チャネルを除去し,MOFT(Motion FeaTure)を提案する。
論文 参考訳(メタデータ) (2024-05-23T17:59:40Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Trace and Pace: Controllable Pedestrian Animation via Guided Trajectory
Diffusion [83.88829943619656]
本研究では,現実的な歩行者軌跡生成手法と,ユーザ定義目標を達成するために制御可能なフルボディアニメーションを提案する。
我々のガイド付き拡散モデルでは,対象とする経路,速度,特定社会集団による軌道の制約が可能である。
本稿では,アニメーションコントローラのRLトレーニング中に学習した値関数を用いて,拡散を誘導し,特定のシナリオに適した軌道を生成することを提案する。
論文 参考訳(メタデータ) (2023-04-04T15:46:42Z) - Controllable Motion Synthesis and Reconstruction with Autoregressive
Diffusion Models [18.50942770933098]
MoDiff(モディフ)は、他のモードの制御コンテキストに条件付けられた動き列上の自己回帰的確率拡散モデルである。
本モデルでは、モーダルトランスフォーマーエンコーダとトランスフォーマーベースのデコーダを統合し、動作の時間的相関と制御のモダリティを捉えるのに有効である。
論文 参考訳(メタデータ) (2023-04-03T08:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。