論文の概要: Unsupervised object-centric video generation and decomposition in 3D
- arxiv url: http://arxiv.org/abs/2007.06705v2
- Date: Wed, 24 Mar 2021 19:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 18:41:05.811574
- Title: Unsupervised object-centric video generation and decomposition in 3D
- Title(参考訳): 教師なし物体中心映像生成と3次元分解
- Authors: Paul Henderson and Christoph H. Lampert
- Abstract要約: 本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
- 参考スコア(独自算出の注目度): 36.08064849807464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A natural approach to generative modeling of videos is to represent them as a
composition of moving objects. Recent works model a set of 2D sprites over a
slowly-varying background, but without considering the underlying 3D scene that
gives rise to them. We instead propose to model a video as the view seen while
moving through a scene with multiple 3D objects and a 3D background. Our model
is trained from monocular videos without any supervision, yet learns to
generate coherent 3D scenes containing several moving objects. We conduct
detailed experiments on two datasets, going beyond the visual complexity
supported by state-of-the-art generative approaches. We evaluate our method on
depth-prediction and 3D object detection -- tasks which cannot be addressed by
those earlier works -- and show it out-performs them even on 2D instance
segmentation and tracking.
- Abstract(参考訳): ビデオ生成モデルへの自然なアプローチは、動画を動くオブジェクトの合成として表現することである。
最近の作品モデルは、ゆっくりと変化する背景の上に2dスプライトの集合をモデル化するが、それらを引き起こす3dシーンを考慮しない。
代わりに、複数の3Dオブジェクトと3D背景を持つシーンを移動しながら見る映像をモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
我々は2つのデータセットの詳細な実験を行い、最先端の生成アプローチによって支えられる視覚的複雑さを超えていきます。
深度予測と3dオブジェクト検出の手法 -- 初期の作業では対処できないタスク -- を評価し,2dインスタンスのセグメンテーションやトラッキングにおいてもそれを上回っています。
関連論文リスト
- DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - 3D-Aware Talking-Head Video Motion Transfer [20.135083791297603]
本稿では3D対応の対話型ビデオモーション転送ネットワークであるHead3Dを提案する。
Head3Dは、2Dの被写体フレームから視覚的に解釈可能な3Dカノニカルヘッドを生成することにより、被写体外観情報を利用する。
Head3Dは2Dと3Dの先行技術より優れています。
論文 参考訳(メタデータ) (2023-11-05T02:50:45Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - Learning Hand-Held Object Reconstruction from In-The-Wild Videos [19.16274394098004]
我々はObManデータセットから合成オブジェクトを用いてデータ駆動型3次元形状を学習する。
我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
論文 参考訳(メタデータ) (2023-05-04T17:56:48Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - 3D Cinemagraphy from a Single Image [73.09720823592092]
3Dシネマグラフィー(3D Cinemagraphy)は、3D画像と2Dアニメーションを融合させる新しい技術である。
静止画1枚を入力として、視覚コンテンツアニメーションとカメラモーションの両方を含むビデオを生成することを目標としています。
論文 参考訳(メタデータ) (2023-03-10T06:08:23Z) - Unsupervised Volumetric Animation [54.52012366520807]
非剛性変形物体の教師なし3次元アニメーションのための新しい手法を提案する。
本手法は,RGBビデオのみからオブジェクトの3次元構造とダイナミックスを学習する。
我々は,本モデルを用いて,単一ボリュームまたは少数の画像からアニマタブルな3Dオブジェクトを得ることができることを示す。
論文 参考訳(メタデータ) (2023-01-26T18:58:54Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping [23.456046776979903]
本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。