論文の概要: DreamDrone
- arxiv url: http://arxiv.org/abs/2312.08746v1
- Date: Thu, 14 Dec 2023 08:42:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 23:38:09.831213
- Title: DreamDrone
- Title(参考訳): ドリームドロン
- Authors: Hanyang Kong, Dongze Lian, Michael Bi Mi, Xinchao Wang
- Abstract要約: 本研究では,テキストプロンプトから未境界のフライスルーシーンを生成する革新的な手法であるDreamDroneを紹介する。
拡散モデルにおける中間特徴の強い対応性を利用した特徴対応誘導拡散プロセスを提案する。
また,中間潜伏符号を編集する高度な手法を提案し,幾何学的整合性を持つ新規なビューの生成を可能にする。
- 参考スコア(独自算出の注目度): 62.26290727917914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce DreamDrone, an innovative method for generating unbounded
flythrough scenes from textual prompts. Central to our method is a novel
feature-correspondence-guidance diffusion process, which utilizes the strong
correspondence of intermediate features in the diffusion model. Leveraging this
guidance strategy, we further propose an advanced technique for editing the
intermediate latent code, enabling the generation of subsequent novel views
with geometric consistency. Extensive experiments reveal that DreamDrone
significantly surpasses existing methods, delivering highly authentic scene
generation with exceptional visual quality. This approach marks a significant
step in zero-shot perpetual view generation from textual prompts, enabling the
creation of diverse scenes, including natural landscapes like oases and caves,
as well as complex urban settings such as Lego-style street views. Our code is
publicly available.
- Abstract(参考訳): テキストプロンプトから未公開のフライスルーシーンを生成するための,革新的な手法であるdreamdroneを紹介する。
本手法の中心は,拡散モデルにおける中間的特徴の強い対応を利用した特徴対応誘導拡散プロセスである。
さらに,この指導戦略を活かして,中間的潜在コード編集のための高度な手法を提案し,幾何学的一貫性を持つ新たなビューの生成を可能にした。
大規模な実験により、DreamDroneは既存の手法をはるかに上回り、優れた視覚的品質のシーンを生成することがわかった。
このアプローチは、テキストプロンプトからゼロショットの永続ビュー生成において重要なステップであり、オースや洞窟などの自然景観や、レゴスタイルのストリートビューのような複雑な都市環境など、多様なシーンを作成できる。
私たちのコードは公開されています。
関連論文リスト
- ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - Training-Free Sketch-Guided Diffusion with Latent Optimization [22.94468603089249]
本稿では,既存のテキスト・画像生成モデルを拡張してスケッチを付加条件として組み込む,革新的なトレーニングフリーパイプラインを提案する。
入力スケッチによく似たレイアウトと構造を持つ新しい画像を生成するために,これらのスケッチの中核となる特徴を拡散モデルのクロスアテンションマップを用いて追跡できることを見出した。
本稿では, 生成過程の中間段階において, 雑音に富んだ遅延を洗練させる手法である潜時最適化を導入する。
論文 参考訳(メタデータ) (2024-08-31T00:44:03Z) - PlacidDreamer: Advancing Harmony in Text-to-3D Generation [20.022078051436846]
PlacidDreamerは、マルチビュー生成とテキスト条件生成を調和させるテキストから3Dフレームワークである。
バランスの取れた飽和を達成するために、新しいスコア蒸留アルゴリズムを採用している。
論文 参考訳(メタデータ) (2024-07-19T02:00:04Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Zero-shot Generation of Coherent Storybook from Plain Text Story using
Diffusion Models [43.32978092618245]
本稿では,ストーリーの平文からコヒーレントなストーリーブックを生成するためのニューラルパイプラインを提案する。
我々は,事前学習された大規模言語モデルとテキスト誘導型潜在拡散モデルを組み合わせて,コヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2023-02-08T06:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。