論文の概要: Playable Environments: Video Manipulation in Space and Time
- arxiv url: http://arxiv.org/abs/2203.01914v1
- Date: Thu, 3 Mar 2022 18:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 14:35:52.805572
- Title: Playable Environments: Video Manipulation in Space and Time
- Title(参考訳): 再生可能な環境:空間と時間の動画操作
- Authors: Willi Menapace, Aliaksandr Siarohin, Christian Theobalt, Vladislav
Golyanik, Sergey Tulyakov, St\'ephane Lathuili\`ere, Elisa Ricci
- Abstract要約: 再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。
提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。
提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
- 参考スコア(独自算出の注目度): 98.0621309257937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Playable Environments - a new representation for interactive video
generation and manipulation in space and time. With a single image at inference
time, our novel framework allows the user to move objects in 3D while
generating a video by providing a sequence of desired actions. The actions are
learnt in an unsupervised manner. The camera can be controlled to get the
desired viewpoint. Our method builds an environment state for each frame, which
can be manipulated by our proposed action module and decoded back to the image
space with volumetric rendering. To support diverse appearances of objects, we
extend neural radiance fields with style-based modulation. Our method trains on
a collection of various monocular videos requiring only the estimated camera
parameters and 2D object locations. To set a challenging benchmark, we
introduce two large scale video datasets with significant camera movements. As
evidenced by our experiments, playable environments enable several creative
applications not attainable by prior video synthesis works, including playable
3D video generation, stylization and manipulation. Further details, code and
examples are available at
https://willi-menapace.github.io/playable-environments-website
- Abstract(参考訳): 再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。
提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。
アクションは教師なしの方法で学習されます。
カメラは所望の視点を得るために制御できる。
提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
オブジェクトの多様な外観をサポートするため,我々はスタイルに基づく変調によるニューラルラディアンス場を拡張した。
提案手法は,推定カメラパラメータと2dオブジェクト位置のみを必要とする単眼映像の集合を訓練する。
挑戦的なベンチマークを設定するために、カメラの動きが著しい2つの大規模ビデオデータセットを導入する。
我々の実験によって証明されたように、プレイ可能な環境は、プレイ可能な3Dビデオ生成、スタイリゼーション、操作など、以前のビデオ合成作業では達成できないいくつかのクリエイティブなアプリケーションを可能にする。
詳細、コード、例はhttps://willi-menapace.github.io/playable-environments-websiteで確認できる。
関連論文リスト
- Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling [21.1274747033854]
キャラクタビデオ合成は、ライフライクなシーン内でアニマタブルなキャラクターのリアルなビデオを作成することを目的としている。
Miloは、文字ビデオを制御可能な属性で合成できる新しいフレームワークである。
Miloは、任意のキャラクタへの高度なスケーラビリティ、新しい3Dモーションへの一般化、インタラクティブな現実世界のシーンへの適用性を実現している。
論文 参考訳(メタデータ) (2024-09-24T15:00:07Z) - OSN: Infinite Representations of Dynamic 3D Scenes from Monocular Videos [7.616167860385134]
モノクラーRGBビデオから基礎となる動的3Dシーンの表現を復元することは、長い間困難であった。
我々はOSNと呼ばれる新しいフレームワークを導入し、入力ビデオにマッチする高機能な3Dシーン構成を学習する。
本手法は, きめ細かい3次元シーン形状を学習する上で, 明らかな優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T05:03:46Z) - Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。
我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文 参考訳(メタデータ) (2024-05-23T17:59:52Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。