Fugu-MT 論文翻訳(概要): SceneScape: Text-Driven Consistent Scene Generation

論文の概要: SceneScape: Text-Driven Consistent Scene Generation

arxiv url: http://arxiv.org/abs/2302.01133v2
Date: Tue, 30 May 2023 08:52:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-01 01:37:53.178985
Title: SceneScape: Text-Driven Consistent Scene Generation
Title（参考訳）: SceneScape: テキスト駆動の一貫性のあるシーン生成
Authors: Rafail Fridman, Amit Abecasis, Yoni Kasten, Tali Dekel
Abstract要約: 本稿では,事前学習したテキスト・ツー・イメージモデルと事前学習した単眼深度予測モデルを組み合わせることで,このような動画をオンライン形式で生成する新しいフレームワークを提案する。 3次元の整合性を達成するための重要な課題に対処するため、オンラインテストタイムトレーニングを展開、現在のフレームの予測深度マップが合成シーンと幾何的に整合するように促す。限定的な領域のみに適用できる以前の作品とは対照的に,本手法では,宇宙船や洞窟,あるいは氷の城の歩行など,多様な場面を創出する。
参考スコア（独自算出の注目度）: 14.348512536556413
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a method for text-driven perpetual view generation -- synthesizing long-term videos of various scenes solely, given an input text prompt describing the scene and camera poses. We introduce a novel framework that generates such videos in an online fashion by combining the generative power of a pre-trained text-to-image model with the geometric priors learned by a pre-trained monocular depth prediction model. To tackle the pivotal challenge of achieving 3D consistency, i.e., synthesizing videos that depict geometrically-plausible scenes, we deploy an online test-time training to encourage the predicted depth map of the current frame to be geometrically consistent with the synthesized scene. The depth maps are used to construct a unified mesh representation of the scene, which is progressively constructed along the video generation process. In contrast to previous works, which are applicable only to limited domains, our method generates diverse scenes, such as walkthroughs in spaceships, caves, or ice castles.
Abstract（参考訳）: 本稿では,シーンとカメラのポーズを記述する入力テキストプロンプトを与えられた場合,様々なシーンの長期映像を合成するテキスト駆動のパーペクタルビュー生成手法を提案する。本稿では,事前学習されたテキストから画像への生成能力と,事前学習された単眼深度予測モデルによって学習された幾何学的事前性を組み合わせたオンライン手法を提案する。 3次元の整合性を達成するための重要な課題、すなわち、幾何学的に表現可能なシーンを描写したビデオの合成に対処するために、オンラインテストタイムトレーニングをデプロイし、現在のフレームの予測深度マップが合成されたシーンと幾何学的に整合することを奨励する。深度マップはシーンの統一メッシュ表現を構築するために使用され、映像生成プロセスに沿って徐々に構築される。限られた領域のみに適用できる従来の作品とは対照的に, 宇宙船, 洞窟, 氷の城の遊歩道など, 様々な場面を再現する手法である。

関連論文リスト

Video Perception Models for 3D Scene Synthesis [109.5543506037003]
VIPSceneは、ビデオ生成モデルにおける3D物理世界のエンコードされたコモンセンス知識を利用する新しいフレームワークである。 VIPSceneはビデオ生成、フィードフォワード3D再構成、オープン語彙認識モデルをシームレスに統合し、シーン内の各オブジェクトを意味的かつ幾何学的に分析する。
論文参考訳（メタデータ） (2025-06-25T16:40:17Z)
VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory [55.73900731190389]
Surfel-Indexed View Memory (VMem) は3次元表面要素に基づいて幾何学的にインデックス化することで過去のビューを記憶する機構である。 VMemは、新しいビューを生成する際に、最も関連性の高い過去のビューを効率的に検索することを可能にする。我々は,シーンコヒーレンスとカメラ制御の維持における従来の手法と比較して,長期シーン合成ベンチマークの課題に対するアプローチを評価し,優れた性能を示す。
論文参考訳（メタデータ） (2025-06-23T17:59:56Z)
Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry [41.904066758259624]
ビデオカメラトラジェクトリ編集のための新しいフレームワークであるVid-CamEditを紹介する。我々のアプローチは、時間的に一貫した幾何を推定する2つのステップと、この幾何学によって導かれる生成的レンダリングからなる。
論文参考訳（メタデータ） (2025-06-16T17:02:47Z)
TexAVi: Generating Stereoscopic VR Video Clips from Text Descriptions [0.562479170374811]
本稿では,既存の生成システムを融合してテキストから立体視のバーチャルリアリティービデオを作成する手法を提案する。私たちの研究は、バーチャルリアリティーシミュレーションのような分野において自然言語駆動グラフィックスを使うことのエキサイティングな可能性を強調します。
論文参考訳（メタデータ） (2025-01-02T09:21:03Z)
SceneCraft: Layout-Guided 3D Scene Generation [29.713491313796084]
シーンクラフト(SceneCraft)は、テキスト記述や空間的レイアウトの好みに則った、室内の詳細なシーンを生成する新しい方法である。本手法は,多様なテクスチャ,一貫した幾何,現実的な視覚的品質を有する複雑な屋内シーン生成において,既存のアプローチを著しく上回っている。
論文参考訳（メタデータ） (2024-10-11T17:59:58Z)
One-Shot Learning Meets Depth Diffusion in Multi-Object Videos [0.0]
本稿では,一対のテキスト・ビデオから一対のコヒーレント・多様な映像を生成可能な,新しい深度条件付き手法を提案する。提案手法は,従来設計した空間的・時間的注意機構を用いて,事前学習したモデルを用いて連続的な動きを捉える。推論中、ビデオ生成のための構造的ガイダンスを提供するためにDDIMインバージョンを使用する。
論文参考訳（メタデータ） (2024-08-29T16:58:10Z)
4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文参考訳（メタデータ） (2024-06-11T17:19:26Z)
Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting [75.7154104065613]
本稿では,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを提案する。また,地上の真理幾何に基づくシーン生成手法のベンチマーク手法も導入した。
論文参考訳（メタデータ） (2024-04-30T17:59:40Z)
Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields [29.907615852310204]
テキストプロンプトから多種多様な3Dシーンを生成できるText2NeRFを提案する。本手法では,追加のトレーニングデータを必要としないが,入力としてシーンを自然言語で記述するのみである。
論文参考訳（メタデータ） (2023-05-19T10:58:04Z)
RoomDreamer: Text-Driven 3D Indoor Scene Synthesis with Coherent Geometry and Texture [80.0643976406225]
本稿では、強力な自然言語を利用して異なるスタイルの部屋を合成する「RoomDreamer」を提案する。本研究は,入力シーン構造に整合した形状とテクスチャを同時に合成することの課題に対処する。提案手法を検証するため,スマートフォンでスキャンした屋内シーンを大規模な実験に利用した。
論文参考訳（メタデータ） (2023-05-18T22:57:57Z)
Non-Rigid Neural Radiance Fields: Reconstruction and Novel View Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文参考訳（メタデータ） (2020-12-22T18:46:12Z)
Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image [73.56631858393148]
本研究では,1枚の画像から任意に長いカメラの軌跡に対応する新規ビューの長期生成という,永続的なビュー生成の問題について紹介する。我々は、幾何合成と画像合成の両方を反復レンダリング、洗練、反復フレームワークで統合するハイブリッドアプローチを採用する。提案手法は,手動のアノテーションを使わずに,一眼レフビデオシーケンスの集合から訓練することができる。
論文参考訳（メタデータ） (2020-12-17T18:59:57Z)
Free View Synthesis [100.86844680362196]
本稿では,シーンの周囲に自由に分布する入力画像から新規なビュー合成手法を提案する。本手法は,入力ビューの規則的な配置に依存しず,シーンを通して自由なカメラ運動のための画像の合成が可能であり,制約のない幾何学的レイアウトの一般的な場面で機能する。
論文参考訳（メタデータ） (2020-08-12T18:16:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。