論文の概要: Playable Environments: Video Manipulation in Space and Time
- arxiv url: http://arxiv.org/abs/2203.01914v1
- Date: Thu, 3 Mar 2022 18:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 14:35:52.805572
- Title: Playable Environments: Video Manipulation in Space and Time
- Title(参考訳): 再生可能な環境:空間と時間の動画操作
- Authors: Willi Menapace, Aliaksandr Siarohin, Christian Theobalt, Vladislav
Golyanik, Sergey Tulyakov, St\'ephane Lathuili\`ere, Elisa Ricci
- Abstract要約: 再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。
提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。
提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
- 参考スコア(独自算出の注目度): 98.0621309257937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Playable Environments - a new representation for interactive video
generation and manipulation in space and time. With a single image at inference
time, our novel framework allows the user to move objects in 3D while
generating a video by providing a sequence of desired actions. The actions are
learnt in an unsupervised manner. The camera can be controlled to get the
desired viewpoint. Our method builds an environment state for each frame, which
can be manipulated by our proposed action module and decoded back to the image
space with volumetric rendering. To support diverse appearances of objects, we
extend neural radiance fields with style-based modulation. Our method trains on
a collection of various monocular videos requiring only the estimated camera
parameters and 2D object locations. To set a challenging benchmark, we
introduce two large scale video datasets with significant camera movements. As
evidenced by our experiments, playable environments enable several creative
applications not attainable by prior video synthesis works, including playable
3D video generation, stylization and manipulation. Further details, code and
examples are available at
https://willi-menapace.github.io/playable-environments-website
- Abstract(参考訳): 再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。
提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。
アクションは教師なしの方法で学習されます。
カメラは所望の視点を得るために制御できる。
提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
オブジェクトの多様な外観をサポートするため,我々はスタイルに基づく変調によるニューラルラディアンス場を拡張した。
提案手法は,推定カメラパラメータと2dオブジェクト位置のみを必要とする単眼映像の集合を訓練する。
挑戦的なベンチマークを設定するために、カメラの動きが著しい2つの大規模ビデオデータセットを導入する。
我々の実験によって証明されたように、プレイ可能な環境は、プレイ可能な3Dビデオ生成、スタイリゼーション、操作など、以前のビデオ合成作業では達成できないいくつかのクリエイティブなアプリケーションを可能にする。
詳細、コード、例はhttps://willi-menapace.github.io/playable-environments-websiteで確認できる。
関連論文リスト
- PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。
既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。
仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:24Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Xp-GAN: Unsupervised Multi-object Controllable Video Generation [8.807587076209566]
ビデオ生成は比較的新しいが、機械学習では人気がある。
ビデオ生成の現在の手法は、生成ビデオ内のオブジェクトの移動方法の正確な仕様をほとんど、あるいはまったく制御しない。
そこで,本研究では,対象物の上に有界なボックスを描き,そのボックスを所望の経路で移動させることで,単一の初期フレームの任意のオブジェクトを移動させる手法を提案する。
論文 参考訳(メタデータ) (2021-11-19T14:10:50Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。