論文の概要: SceneScape: Text-Driven Consistent Scene Generation
- arxiv url: http://arxiv.org/abs/2302.01133v1
- Date: Thu, 2 Feb 2023 14:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 13:45:31.550999
- Title: SceneScape: Text-Driven Consistent Scene Generation
- Title(参考訳): SceneScape: テキスト駆動の一貫性のあるシーン生成
- Authors: Rafail Fridman, Amit Abecasis, Yoni Kasten, Tali Dekel
- Abstract要約: 本稿では,このような動画をオンラインで生成する新しいフレームワークを提案する。
オンラインテストタイムトレーニングを展開し、現在のフレームの予測深度マップが合成シーンと幾何学的に整合することを奨励する。
限られた領域に限られる以前の作品とは対照的に、我々の枠組みは、宇宙船や洞窟、あるいは氷の城のウォークスルーなど、多様な場面を生み出している。
- 参考スコア(独自算出の注目度): 14.348512536556413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method for text-driven perpetual view generation -- synthesizing
long videos of arbitrary scenes solely from an input text describing the scene
and camera poses. We introduce a novel framework that generates such videos in
an online fashion by combining the generative power of a pre-trained
text-to-image model with the geometric priors learned by a pre-trained
monocular depth prediction model. To achieve 3D consistency, i.e., generating
videos that depict geometrically-plausible scenes, we deploy an online
test-time training to encourage the predicted depth map of the current frame to
be geometrically consistent with the synthesized scene; the depth maps are used
to construct a unified mesh representation of the scene, which is updated
throughout the generation and is used for rendering. In contrast to previous
works, which are applicable only for limited domains (e.g., landscapes), our
framework generates diverse scenes, such as walkthroughs in spaceships, caves,
or ice castles. Project page: https://scenescape.github.io/
- Abstract(参考訳): シーンとカメラのポーズを記述した入力テキストのみから任意のシーンの長い動画を合成する,テキスト駆動の永久ビュー生成手法を提案する。
本稿では,事前学習されたテキストから画像への生成能力と,事前学習された単眼深度予測モデルによって学習された幾何学的事前性を組み合わせたオンライン手法を提案する。
3次元の一貫性を実現するため、例えば、幾何学的に表現可能なシーンを表現したビデオを生成するために、オンラインテストタイムトレーニングを展開して、現在のフレームの予測された深度マップを合成シーンと幾何学的に整合させるように促し、深度マップを使用して、世代を通じて更新され、レンダリングに使用されるシーンの統一メッシュ表現を構築する。
限られた領域(例:風景)のみに適用できる以前の作品とは対照的に、我々の枠組みは宇宙船、洞窟、氷の城などの様々なシーンを生み出している。
プロジェクトページ: https://scenescape.github.io/
関連論文リスト
- Blocks2World: Controlling Realistic Scenes with Editable Primitives [5.541644538483947]
我々は3Dシーンのレンダリングと編集のための新しい方法であるBlocks2Worldを提案する。
本手法は,コンベックス分解を用いて,各シーンの様々な物体から3次元並列入力を抽出することから始める。
次のステージでは、2Dレンダリングされた凸プリミティブから画像を生成することを学ぶ条件付きモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-07-07T21:38:50Z) - Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields [29.907615852310204]
テキストプロンプトから多種多様な3Dシーンを生成できるText2NeRFを提案する。
本手法では,追加のトレーニングデータを必要としないが,入力としてシーンを自然言語で記述するのみである。
論文 参考訳(メタデータ) (2023-05-19T10:58:04Z) - RoomDreamer: Text-Driven 3D Indoor Scene Synthesis with Coherent
Geometry and Texture [80.0643976406225]
本稿では、強力な自然言語を利用して異なるスタイルの部屋を合成する「RoomDreamer」を提案する。
本研究は,入力シーン構造に整合した形状とテクスチャを同時に合成することの課題に対処する。
提案手法を検証するため,スマートフォンでスキャンした屋内シーンを大規模な実験に利用した。
論文 参考訳(メタデータ) (2023-05-18T22:57:57Z) - Advances in Neural Rendering [115.05042097988768]
本稿では,古典的レンダリングと学習された3Dシーン表現を組み合わせた手法について述べる。
これらの手法の重要な利点は、これらが3D一貫性を持ち、キャプチャされたシーンの新たな視点のようなアプリケーションを可能にすることである。
静的なシーンを扱う方法に加えて、非厳密な変形オブジェクトをモデル化するためのニューラルシーン表現についても取り上げる。
論文 参考訳(メタデータ) (2021-11-10T18:57:01Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z) - Infinite Nature: Perpetual View Generation of Natural Scenes from a
Single Image [73.56631858393148]
本研究では,1枚の画像から任意に長いカメラの軌跡に対応する新規ビューの長期生成という,永続的なビュー生成の問題について紹介する。
我々は、幾何合成と画像合成の両方を反復レンダリング、洗練、反復フレームワークで統合するハイブリッドアプローチを採用する。
提案手法は,手動のアノテーションを使わずに,一眼レフビデオシーケンスの集合から訓練することができる。
論文 参考訳(メタデータ) (2020-12-17T18:59:57Z) - Street-view Panoramic Video Synthesis from a Single Satellite Image [92.26826861266784]
時間的および幾何学的に一貫したストリートビューパノラマビデオの両方を合成する新しい方法を提示する。
既存のクロスビュー合成アプローチは画像に重点を置いているが、そのような場合のビデオ合成はまだ十分な注目を集めていない。
論文 参考訳(メタデータ) (2020-12-11T20:22:38Z) - Free View Synthesis [100.86844680362196]
本稿では,シーンの周囲に自由に分布する入力画像から新規なビュー合成手法を提案する。
本手法は,入力ビューの規則的な配置に依存しず,シーンを通して自由なカメラ運動のための画像の合成が可能であり,制約のない幾何学的レイアウトの一般的な場面で機能する。
論文 参考訳(メタデータ) (2020-08-12T18:16:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。