Fugu-MT 論文翻訳(概要): Playable Environments: Video Manipulation in Space and Time

論文の概要: Playable Environments: Video Manipulation in Space and Time

arxiv url: http://arxiv.org/abs/2203.01914v1
Date: Thu, 3 Mar 2022 18:51:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-04 14:35:52.805572
Title: Playable Environments: Video Manipulation in Space and Time
Title（参考訳）: 再生可能な環境:空間と時間の動画操作
Authors: Willi Menapace, Aliaksandr Siarohin, Christian Theobalt, Vladislav Golyanik, Sergey Tulyakov, St\'ephane Lathuili\`ere, Elisa Ricci
Abstract要約: 再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
参考スコア（独自算出の注目度）: 98.0621309257937
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Playable Environments - a new representation for interactive video generation and manipulation in space and time. With a single image at inference time, our novel framework allows the user to move objects in 3D while generating a video by providing a sequence of desired actions. The actions are learnt in an unsupervised manner. The camera can be controlled to get the desired viewpoint. Our method builds an environment state for each frame, which can be manipulated by our proposed action module and decoded back to the image space with volumetric rendering. To support diverse appearances of objects, we extend neural radiance fields with style-based modulation. Our method trains on a collection of various monocular videos requiring only the estimated camera parameters and 2D object locations. To set a challenging benchmark, we introduce two large scale video datasets with significant camera movements. As evidenced by our experiments, playable environments enable several creative applications not attainable by prior video synthesis works, including playable 3D video generation, stylization and manipulation. Further details, code and examples are available at https://willi-menapace.github.io/playable-environments-website
Abstract（参考訳）: 再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。アクションは教師なしの方法で学習されます。カメラは所望の視点を得るために制御できる。提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。オブジェクトの多様な外観をサポートするため,我々はスタイルに基づく変調によるニューラルラディアンス場を拡張した。提案手法は,推定カメラパラメータと2dオブジェクト位置のみを必要とする単眼映像の集合を訓練する。挑戦的なベンチマークを設定するために、カメラの動きが著しい2つの大規模ビデオデータセットを導入する。我々の実験によって証明されたように、プレイ可能な環境は、プレイ可能な3Dビデオ生成、スタイリゼーション、操作など、以前のビデオ合成作業では達成できないいくつかのクリエイティブなアプリケーションを可能にする。詳細、コード、例はhttps://willi-menapace.github.io/playable-environments-websiteで確認できる。

関連論文リスト

WorldExplorer: Towards Generating Fully Navigable 3D Scenes [49.21733308718443]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文参考訳（メタデータ） (2025-06-02T15:41:31Z)
Optimizing 4D Gaussians for Dynamic Scene Video from Single Landscape Images [5.754780404074765]
一つの画像から4次元ガウス表現をモデル化することにより,ダイナミックシーン映像の完全な3次元空間を表現することを提案する。私たちが知る限りでは、これは単一の風景画像から完全な3D空間を表現しながらアニメーションを考える最初の試みである。
論文参考訳（メタデータ） (2025-04-04T06:51:39Z)
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [62.64811405314847]
VidCRAFT3は、画像とビデオの正確な生成のための新しいフレームワークである。カメラの動き、物体の動き、照明方向を同時に制御できる。高品質なビデオコンテンツを生成し、粒度と視覚的コヒーレンスを制御する最先端の手法より優れている。
論文参考訳（メタデータ） (2025-02-11T13:11:59Z)
From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos [71.22810401256234]
オブジェクトやシーンの3次元理解は、人間が世界と対話する能力において重要な役割を果たす。大規模合成およびオブジェクト中心の3Dデータセットは、オブジェクトの3D理解を持つモデルのトレーニングに有効であることが示されている。我々は360-1M、360度ビデオデータセット、およびスケールの多様な視点から対応するフレームを効率的に見つけるプロセスを紹介した。
論文参考訳（メタデータ） (2024-12-10T18:59:44Z)
Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文参考訳（メタデータ） (2024-11-20T18:58:31Z)
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。 Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文参考訳（メタデータ） (2024-10-14T17:46:32Z)
MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling [21.1274747033854]
キャラクタビデオ合成は、ライフライクなシーン内でアニマタブルなキャラクターのリアルなビデオを作成することを目的としている。 Miloは、文字ビデオを制御可能な属性で合成できる新しいフレームワークである。 Miloは、任意のキャラクタへの高度なスケーラビリティ、新しい3Dモーションへの一般化、インタラクティブな現実世界のシーンへの適用性を実現している。
論文参考訳（メタデータ） (2024-09-24T15:00:07Z)
OSN: Infinite Representations of Dynamic 3D Scenes from Monocular Videos [7.616167860385134]
モノクラーRGBビデオから基礎となる動的3Dシーンの表現を復元することは、長い間困難であった。我々はOSNと呼ばれる新しいフレームワークを導入し、入力ビデオにマッチする高機能な3Dシーン構成を学習する。本手法は, きめ細かい3次元シーン形状を学習する上で, 明らかな優位性を示す。
論文参考訳（メタデータ） (2024-07-08T05:03:46Z)
Training-free Camera Control for Video Generation [15.79168688275606]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。ほとんどの事前訓練されたビデオ拡散モデルでプラグイン・アンド・プレイでき、単一の画像またはテキストプロンプトを入力としてカメラ制御可能なビデオを生成することができる。
論文参考訳（メタデータ） (2024-06-14T15:33:00Z)
Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文参考訳（メタデータ） (2024-05-23T17:59:52Z)
DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文参考訳（メタデータ） (2022-11-20T20:57:02Z)
Video Autoencoder: self-supervised disentanglement of static 3D structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文参考訳（メタデータ） (2021-10-06T17:57:42Z)
A Good Image Generator Is What You Need for High-Resolution Video Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文参考訳（メタデータ） (2021-04-30T15:38:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。