論文の概要: Synthetic Data Are as Good as the Real for Association Knowledge
Learning in Multi-object Tracking
- arxiv url: http://arxiv.org/abs/2106.16100v2
- Date: Fri, 2 Jul 2021 15:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 13:06:47.914662
- Title: Synthetic Data Are as Good as the Real for Association Knowledge
Learning in Multi-object Tracking
- Title(参考訳): 合成データは多目的追跡における関連知識学習の現実に匹敵する
- Authors: Yuchi Liu, Zhongdao Wang, Xiangxin Zhou and Liang Zheng
- Abstract要約: 本稿では,3次元合成データが実世界のビデオに取って代わってアソシエーショントレーニングを行うことができるかどうかを考察する。
具体的には,MOTXと呼ばれる大規模合成データエンジンを導入し,カメラや物体の運動特性を実世界のデータセットに類似するように手動で設定する。
実データと比較すると、合成データから得られた関連知識は、ドメイン適応技術なしで実世界のテストセット上で非常によく似た性能が得られることを示す。
- 参考スコア(独自算出の注目度): 19.772968520292345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Association, aiming to link bounding boxes of the same identity in a video
sequence, is a central component in multi-object tracking (MOT). To train
association modules, e.g., parametric networks, real video data are usually
used. However, annotating person tracks in consecutive video frames is
expensive, and such real data, due to its inflexibility, offer us limited
opportunities to evaluate the system performance w.r.t changing tracking
scenarios. In this paper, we study whether 3D synthetic data can replace
real-world videos for association training. Specifically, we introduce a
large-scale synthetic data engine named MOTX, where the motion characteristics
of cameras and objects are manually configured to be similar to those in
real-world datasets. We show that compared with real data, association
knowledge obtained from synthetic data can achieve very similar performance on
real-world test sets without domain adaption techniques. Our intriguing
observation is credited to two factors. First and foremost, 3D engines can well
simulate motion factors such as camera movement, camera view and object
movement, so that the simulated videos can provide association modules with
effective motion features. Second, experimental results show that the
appearance domain gap hardly harms the learning of association knowledge. In
addition, the strong customization ability of MOTX allows us to quantitatively
assess the impact of motion factors on MOT, which brings new insights to the
community.
- Abstract(参考訳): 同じアイデンティティのバウンディングボックスをビデオシーケンスでリンクすることを目的としたアソシエーションは、マルチオブジェクトトラッキング(mot)の中心的なコンポーネントである。
パラメトリックネットワークなどのアソシエーションモジュールをトレーニングするために、実際のビデオデータが通常使用される。
しかし、連続するビデオフレームで人物のトラックをアノテートすることは高価であり、そのような実際のデータは柔軟性がないため、追跡シナリオを変更するシステム性能w.r.tを評価する機会が限られている。
本稿では,3次元合成データが実世界の映像を連想訓練に置き換えられるかどうかについて検討する。
具体的には,MOTXと呼ばれる大規模合成データエンジンを導入し,カメラや物体の運動特性を実世界のデータセットに類似するように手動で設定する。
実データと比較すると,合成データから得られる連想知識は,ドメイン適応手法を使わずに実世界のテストセットで非常によく似た性能が得られることを示す。
私たちの興味深い観察には2つの要因がある。
第一に、3Dエンジンは、カメラの動き、カメラの視界、物体の動きなどの動きをうまくシミュレートすることができ、シミュレートされたビデオは、効果的なモーション特徴を持つアソシエーションモジュールを提供することができる。
第2に, 出現領域のギャップが連想知識の学習にほとんど影響を与えないことを示す実験結果が得られた。
さらに、MOTXの強力なカスタマイズ能力により、MOTに対する運動要因の影響を定量的に評価することが可能となり、コミュニティに新たな洞察がもたらされる。
関連論文リスト
- VR-based generation of photorealistic synthetic data for training
hand-object tracking models [0.0]
ブレンダー・ホアシンス (blender-hoisynth) は、ブレンダーソフトウェアに基づくインタラクティブな合成データ生成装置である。
ユーザーは標準のバーチャルリアリティハードウェアを使用して、仮想手でオブジェクトと対話することができる。
私たちは、よく知られたDexYCBデータセットのトレーニングデータの大部分をホアシンスデータに置き換え、最先端のHOI再構築モデルをトレーニングします。
論文 参考訳(メタデータ) (2024-01-31T14:32:56Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Realistic Full-Body Tracking from Sparse Observations via Joint-Level
Modeling [13.284947022380404]
頭部と手の3つの追跡信号だけで、正確でスムーズな全身運動を得ることができる2段階のフレームワークを提案する。
本フレームワークは,第1段階の関節レベル特徴を明示的にモデル化し,第2段階の関節レベル相関を捉えるために,空間的および時間的トランスフォーマーブロックの交互化に時間的トークンとして利用する。
AMASSモーションデータセットと実捕集データに関する広範な実験により,提案手法は既存の手法と比較して,より正確で滑らかな動きを実現することができることを示す。
論文 参考訳(メタデータ) (2023-08-17T08:27:55Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z) - RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces [77.07767833443256]
RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
オブジェクト中心生成モデリングにおける最先端の手法とは対照的に、RELATEは自然に動的なシーンに拡張し、高い視覚的忠実度のビデオを生成する。
論文 参考訳(メタデータ) (2020-07-02T17:27:27Z) - Learning to simulate complex scenes [18.51564016785853]
本稿では,意味的セグメンテーションの文脈におけるコンテンツ適応について考察する。
本稿では、属性値の最適化と、実世界のデータと類似したコンテンツのトレーニングセットを得るために、スケーラブルな離散化・緩和(SDR)アプローチを提案する。
実験により,本システムは合理的かつ有用なシーンを生成でき,そこから有望な実世界のセグメンテーション精度を得ることができた。
論文 参考訳(メタデータ) (2020-06-25T17:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。