論文の概要: Unsupervised object-centric video generation and decomposition in 3D
- arxiv url: http://arxiv.org/abs/2007.06705v2
- Date: Wed, 24 Mar 2021 19:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 18:41:05.811574
- Title: Unsupervised object-centric video generation and decomposition in 3D
- Title(参考訳): 教師なし物体中心映像生成と3次元分解
- Authors: Paul Henderson and Christoph H. Lampert
- Abstract要約: 本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
- 参考スコア(独自算出の注目度): 36.08064849807464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A natural approach to generative modeling of videos is to represent them as a
composition of moving objects. Recent works model a set of 2D sprites over a
slowly-varying background, but without considering the underlying 3D scene that
gives rise to them. We instead propose to model a video as the view seen while
moving through a scene with multiple 3D objects and a 3D background. Our model
is trained from monocular videos without any supervision, yet learns to
generate coherent 3D scenes containing several moving objects. We conduct
detailed experiments on two datasets, going beyond the visual complexity
supported by state-of-the-art generative approaches. We evaluate our method on
depth-prediction and 3D object detection -- tasks which cannot be addressed by
those earlier works -- and show it out-performs them even on 2D instance
segmentation and tracking.
- Abstract(参考訳): ビデオ生成モデルへの自然なアプローチは、動画を動くオブジェクトの合成として表現することである。
最近の作品モデルは、ゆっくりと変化する背景の上に2dスプライトの集合をモデル化するが、それらを引き起こす3dシーンを考慮しない。
代わりに、複数の3Dオブジェクトと3D背景を持つシーンを移動しながら見る映像をモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
我々は2つのデータセットの詳細な実験を行い、最先端の生成アプローチによって支えられる視覚的複雑さを超えていきます。
深度予測と3dオブジェクト検出の手法 -- 初期の作業では対処できないタスク -- を評価し,2dインスタンスのセグメンテーションやトラッキングにおいてもそれを上回っています。
関連論文リスト
- Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Vid3D: Synthesis of Dynamic 3D Scenes using 2D Video Diffusion [3.545941891218148]
本稿では,現在のアプローチのように時間とともに多視点一貫性を明示的に実施する必要があるか,あるいはモデルが各タイムステップの3次元表現を独立に生成するのに十分なのかを検討する。
本稿では,2次元映像拡散を利用して3次元映像を生成するモデルVid3Dを提案する。
論文 参考訳(メタデータ) (2024-06-17T04:09:04Z) - DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos [21.93514516437402]
本稿では,新しいビュー合成によるモノクロ映像から複数の物体の3次元動的シーンを生成するための最初のアプローチであるDreamScene4Dを紹介する。
私たちの重要な洞察は、ビデオシーンを背景とオブジェクトトラックに分解する"分解分解"アプローチです。
DAVIS, Kubric, 自撮りビデオについて, 定量的比較とユーザ嗜好調査を行った。
論文 参考訳(メタデータ) (2024-05-03T17:55:34Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - 3D Cinemagraphy from a Single Image [73.09720823592092]
3Dシネマグラフィー(3D Cinemagraphy)は、3D画像と2Dアニメーションを融合させる新しい技術である。
静止画1枚を入力として、視覚コンテンツアニメーションとカメラモーションの両方を含むビデオを生成することを目標としています。
論文 参考訳(メタデータ) (2023-03-10T06:08:23Z) - Unsupervised Volumetric Animation [54.52012366520807]
非剛性変形物体の教師なし3次元アニメーションのための新しい手法を提案する。
本手法は,RGBビデオのみからオブジェクトの3次元構造とダイナミックスを学習する。
我々は,本モデルを用いて,単一ボリュームまたは少数の画像からアニマタブルな3Dオブジェクトを得ることができることを示す。
論文 参考訳(メタデータ) (2023-01-26T18:58:54Z) - Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping [23.456046776979903]
本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。