論文の概要: DreamDrone
- arxiv url: http://arxiv.org/abs/2312.08746v2
- Date: Sun, 17 Dec 2023 19:14:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:00:02.755937
- Title: DreamDrone
- Title(参考訳): ドリームドロン
- Authors: Hanyang Kong, Dongze Lian, Michael Bi Mi, Xinchao Wang
- Abstract要約: 本研究では,テキストプロンプトから未境界のフライスルーシーンを生成する革新的な手法であるDreamDroneを紹介する。
拡散モデルにおける中間特徴の強い対応性を利用した特徴対応誘導拡散プロセスを提案する。
また,中間潜伏符号を編集する高度な手法を提案し,幾何学的整合性を持つ新規なビューの生成を可能にする。
- 参考スコア(独自算出の注目度): 62.26290727917914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce DreamDrone, an innovative method for generating unbounded
flythrough scenes from textual prompts. Central to our method is a novel
feature-correspondence-guidance diffusion process, which utilizes the strong
correspondence of intermediate features in the diffusion model. Leveraging this
guidance strategy, we further propose an advanced technique for editing the
intermediate latent code, enabling the generation of subsequent novel views
with geometric consistency. Extensive experiments reveal that DreamDrone
significantly surpasses existing methods, delivering highly authentic scene
generation with exceptional visual quality. This approach marks a significant
step in zero-shot perpetual view generation from textual prompts, enabling the
creation of diverse scenes, including natural landscapes like oases and caves,
as well as complex urban settings such as Lego-style street views. Our code is
publicly available.
- Abstract(参考訳): テキストプロンプトから未公開のフライスルーシーンを生成するための,革新的な手法であるdreamdroneを紹介する。
本手法の中心は,拡散モデルにおける中間的特徴の強い対応を利用した特徴対応誘導拡散プロセスである。
さらに,この指導戦略を活かして,中間的潜在コード編集のための高度な手法を提案し,幾何学的一貫性を持つ新たなビューの生成を可能にした。
大規模な実験により、DreamDroneは既存の手法をはるかに上回り、優れた視覚的品質のシーンを生成することがわかった。
このアプローチは、テキストプロンプトからゼロショットの永続ビュー生成において重要なステップであり、オースや洞窟などの自然景観や、レゴスタイルのストリートビューのような複雑な都市環境など、多様なシーンを作成できる。
私たちのコードは公開されています。
関連論文リスト
- Text2Immersion: Generative Immersive Scene with 3D Gaussians [14.014016090679627]
Text2Immersionは、テキストプロンプトから高品質な3D没入シーンを生成するためのエレガントな方法である。
我々のシステムは、品質と多様性をレンダリングする他の手法を超越し、テキスト駆動の3Dシーン生成に向けてさらに前進している。
論文 参考訳(メタデータ) (2023-12-14T18:58:47Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - Zero-shot Generation of Coherent Storybook from Plain Text Story using
Diffusion Models [43.32978092618245]
本稿では,ストーリーの平文からコヒーレントなストーリーブックを生成するためのニューラルパイプラインを提案する。
我々は,事前学習された大規模言語モデルとテキスト誘導型潜在拡散モデルを組み合わせて,コヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2023-02-08T06:24:06Z) - SceneScape: Text-Driven Consistent Scene Generation [14.348512536556413]
本稿では,事前学習したテキスト・ツー・イメージモデルと事前学習した単眼深度予測モデルを組み合わせることで,このような動画をオンライン形式で生成する新しいフレームワークを提案する。
3次元の整合性を達成するための重要な課題に対処するため、オンラインテストタイムトレーニングを展開、現在のフレームの予測深度マップが合成シーンと幾何的に整合するように促す。
限定的な領域のみに適用できる以前の作品とは対照的に,本手法では,宇宙船や洞窟,あるいは氷の城の歩行など,多様な場面を創出する。
論文 参考訳(メタデータ) (2023-02-02T14:47:19Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z) - Future Urban Scenes Generation Through Vehicles Synthesis [90.1731992199415]
本研究では,都市景観の視覚的外観を予測するためのディープラーニングパイプラインを提案する。
ループには解釈可能な情報が含まれ、各アクターは独立してモデル化される。
従来のCityFlowのシーン生成手法に比べて,このアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2020-07-01T08:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。