論文の概要: SceneScape: Text-Driven Consistent Scene Generation
- arxiv url: http://arxiv.org/abs/2302.01133v1
- Date: Thu, 2 Feb 2023 14:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 13:45:31.550999
- Title: SceneScape: Text-Driven Consistent Scene Generation
- Title(参考訳): SceneScape: テキスト駆動の一貫性のあるシーン生成
- Authors: Rafail Fridman, Amit Abecasis, Yoni Kasten, Tali Dekel
- Abstract要約: 本稿では,このような動画をオンラインで生成する新しいフレームワークを提案する。
オンラインテストタイムトレーニングを展開し、現在のフレームの予測深度マップが合成シーンと幾何学的に整合することを奨励する。
限られた領域に限られる以前の作品とは対照的に、我々の枠組みは、宇宙船や洞窟、あるいは氷の城のウォークスルーなど、多様な場面を生み出している。
- 参考スコア(独自算出の注目度): 14.348512536556413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method for text-driven perpetual view generation -- synthesizing
long videos of arbitrary scenes solely from an input text describing the scene
and camera poses. We introduce a novel framework that generates such videos in
an online fashion by combining the generative power of a pre-trained
text-to-image model with the geometric priors learned by a pre-trained
monocular depth prediction model. To achieve 3D consistency, i.e., generating
videos that depict geometrically-plausible scenes, we deploy an online
test-time training to encourage the predicted depth map of the current frame to
be geometrically consistent with the synthesized scene; the depth maps are used
to construct a unified mesh representation of the scene, which is updated
throughout the generation and is used for rendering. In contrast to previous
works, which are applicable only for limited domains (e.g., landscapes), our
framework generates diverse scenes, such as walkthroughs in spaceships, caves,
or ice castles. Project page: https://scenescape.github.io/
- Abstract(参考訳): シーンとカメラのポーズを記述した入力テキストのみから任意のシーンの長い動画を合成する,テキスト駆動の永久ビュー生成手法を提案する。
本稿では,事前学習されたテキストから画像への生成能力と,事前学習された単眼深度予測モデルによって学習された幾何学的事前性を組み合わせたオンライン手法を提案する。
3次元の一貫性を実現するため、例えば、幾何学的に表現可能なシーンを表現したビデオを生成するために、オンラインテストタイムトレーニングを展開して、現在のフレームの予測された深度マップを合成シーンと幾何学的に整合させるように促し、深度マップを使用して、世代を通じて更新され、レンダリングに使用されるシーンの統一メッシュ表現を構築する。
限られた領域(例:風景)のみに適用できる以前の作品とは対照的に、我々の枠組みは宇宙船、洞窟、氷の城などの様々なシーンを生み出している。
プロジェクトページ: https://scenescape.github.io/
関連論文リスト
- SceneCraft: Layout-Guided 3D Scene Generation [29.713491313796084]
シーンクラフト(SceneCraft)は、テキスト記述や空間的レイアウトの好みに則った、室内の詳細なシーンを生成する新しい方法である。
本手法は,多様なテクスチャ,一貫した幾何,現実的な視覚的品質を有する複雑な屋内シーン生成において,既存のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2024-10-11T17:59:58Z) - One-Shot Learning Meets Depth Diffusion in Multi-Object Videos [0.0]
本稿では,一対のテキスト・ビデオから一対のコヒーレント・多様な映像を生成可能な,新しい深度条件付き手法を提案する。
提案手法は,従来設計した空間的・時間的注意機構を用いて,事前学習したモデルを用いて連続的な動きを捉える。
推論中、ビデオ生成のための構造的ガイダンスを提供するためにDDIMインバージョンを使用する。
論文 参考訳(メタデータ) (2024-08-29T16:58:10Z) - 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。
提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。
次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文 参考訳(メタデータ) (2024-06-11T17:19:26Z) - Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting [75.7154104065613]
本稿では,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを提案する。
また,地上の真理幾何に基づくシーン生成手法のベンチマーク手法も導入した。
論文 参考訳(メタデータ) (2024-04-30T17:59:40Z) - Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields [29.907615852310204]
テキストプロンプトから多種多様な3Dシーンを生成できるText2NeRFを提案する。
本手法では,追加のトレーニングデータを必要としないが,入力としてシーンを自然言語で記述するのみである。
論文 参考訳(メタデータ) (2023-05-19T10:58:04Z) - RoomDreamer: Text-Driven 3D Indoor Scene Synthesis with Coherent
Geometry and Texture [80.0643976406225]
本稿では、強力な自然言語を利用して異なるスタイルの部屋を合成する「RoomDreamer」を提案する。
本研究は,入力シーン構造に整合した形状とテクスチャを同時に合成することの課題に対処する。
提案手法を検証するため,スマートフォンでスキャンした屋内シーンを大規模な実験に利用した。
論文 参考訳(メタデータ) (2023-05-18T22:57:57Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z) - Infinite Nature: Perpetual View Generation of Natural Scenes from a
Single Image [73.56631858393148]
本研究では,1枚の画像から任意に長いカメラの軌跡に対応する新規ビューの長期生成という,永続的なビュー生成の問題について紹介する。
我々は、幾何合成と画像合成の両方を反復レンダリング、洗練、反復フレームワークで統合するハイブリッドアプローチを採用する。
提案手法は,手動のアノテーションを使わずに,一眼レフビデオシーケンスの集合から訓練することができる。
論文 参考訳(メタデータ) (2020-12-17T18:59:57Z) - Free View Synthesis [100.86844680362196]
本稿では,シーンの周囲に自由に分布する入力画像から新規なビュー合成手法を提案する。
本手法は,入力ビューの規則的な配置に依存しず,シーンを通して自由なカメラ運動のための画像の合成が可能であり,制約のない幾何学的レイアウトの一般的な場面で機能する。
論文 参考訳(メタデータ) (2020-08-12T18:16:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。