論文の概要: Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion
- arxiv url: http://arxiv.org/abs/2110.02951v1
- Date: Wed, 6 Oct 2021 17:57:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 15:26:34.855979
- Title: Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion
- Title(参考訳): ビデオオートエンコーダ:静的な3次元構造と動きの自己監督的外乱
- Authors: Zihang Lai, Sifei Liu, Alexei A. Efros, Xiaolong Wang
- Abstract要約: ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
- 参考スコア(独自算出の注目度): 60.58836145375273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A video autoencoder is proposed for learning disentan- gled representations
of 3D structure and camera pose from videos in a self-supervised manner.
Relying on temporal continuity in videos, our work assumes that the 3D scene
structure in nearby video frames remains static. Given a sequence of video
frames as input, the video autoencoder extracts a disentangled representation
of the scene includ- ing: (i) a temporally-consistent deep voxel feature to
represent the 3D structure and (ii) a 3D trajectory of camera pose for each
frame. These two representations will then be re-entangled for rendering the
input video frames. This video autoencoder can be trained directly using a
pixel reconstruction loss, without any ground truth 3D or camera pose
annotations. The disentangled representation can be applied to a range of
tasks, including novel view synthesis, camera pose estimation, and video
generation by motion following. We evaluate our method on several large- scale
natural video datasets, and show generalization results on out-of-domain
images.
- Abstract(参考訳): ビデオから3次元構造とカメラポーズのディスタンタン・グリード表現を自己教師ありで学習するためにビデオオートエンコーダを提案する。
ビデオの時間的連続性に基づいて、我々の研究は、近くのビデオフレームの3Dシーン構造が静止していると仮定する。
入力として映像フレームのシーケンスが与えられると、ビデオオートエンコーダはシーンインクルード・ingの異方性表現を抽出する。
(i)3d構造を表す時間的に一貫性のある深いボクセルの特徴
(ii)フレームごとにカメラの3次元軌跡がポーズする。
これら2つの表現は、入力されたビデオフレームをレンダリングするために再び絡み合う。
このビデオオートエンコーダは、3Dやカメラのアノテーションを使わずに、画素再構成損失を直接トレーニングすることができる。
この異方性表現は、新しい視点合成、カメラポーズ推定、動き追従によるビデオ生成など、様々なタスクに適用することができる。
本手法を複数の大規模自然映像データセットで評価し,領域外画像に一般化結果を示す。
関連論文リスト
- CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation [76.72787726497343]
CineMasterは3D認識と制御可能なテキスト・ビデオ生成のためのフレームワークである。
私たちのゴールは、プロの映画監督と同等のコントロール性を持つユーザーを力づけることです。
論文 参考訳(メタデータ) (2025-02-12T18:55:36Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [62.6737516863285]
VideoLifterは、ビデオシーケンスから直接、グローバルスパースから高密度な3D表現に漸進的に最適化する新しいフレームワークである。
フレームやフラグメント間のスパースポイント対応の追跡と伝播によって、VideoLifterはカメラのポーズと3D構造を徐々に洗練する。
このアプローチは、視覚的忠実度と計算効率において、現在の最先端の手法を超越しながら、トレーニング時間を82%以上短縮する。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - Unsupervised Video Prediction from a Single Frame by Estimating 3D
Dynamic Scene Structure [42.3091008598491]
まず,移動物体のセグメンテーションを含むシーンの潜伏3次元構造を推定するモデルを開発する。
そして、オブジェクトとカメラのダイナミクスをシミュレートし、その結果のビューをレンダリングすることで、将来のフレームを予測する。
自然ビデオの2つの挑戦的なデータセットの実験により、我々のモデルは単一のフレームから3次元構造と動きのセグメンテーションを推定できることを示した。
論文 参考訳(メタデータ) (2021-06-16T18:00:12Z) - Online Adaptation for Consistent Mesh Reconstruction in the Wild [147.22708151409765]
入ってくるテストビデオに適用する自己教師型オンライン適応問題として、ビデオベースの再構成を行う。
我々は,野生で捕獲された動物を含む非剛体物体のビデオから,時間的に一貫した信頼性の高い3D構造を復元できることを実証した。
論文 参考訳(メタデータ) (2020-12-06T07:22:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。