Fugu-MT 論文翻訳(概要): DreamDrone

論文の概要: DreamDrone

arxiv url: http://arxiv.org/abs/2312.08746v2
Date: Sun, 17 Dec 2023 19:14:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 19:00:02.755937
Title: DreamDrone
Title（参考訳）: ドリームドロン
Authors: Hanyang Kong, Dongze Lian, Michael Bi Mi, Xinchao Wang
Abstract要約: 本研究では,テキストプロンプトから未境界のフライスルーシーンを生成する革新的な手法であるDreamDroneを紹介する。拡散モデルにおける中間特徴の強い対応性を利用した特徴対応誘導拡散プロセスを提案する。また,中間潜伏符号を編集する高度な手法を提案し,幾何学的整合性を持つ新規なビューの生成を可能にする。
参考スコア（独自算出の注目度）: 62.26290727917914
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce DreamDrone, an innovative method for generating unbounded flythrough scenes from textual prompts. Central to our method is a novel feature-correspondence-guidance diffusion process, which utilizes the strong correspondence of intermediate features in the diffusion model. Leveraging this guidance strategy, we further propose an advanced technique for editing the intermediate latent code, enabling the generation of subsequent novel views with geometric consistency. Extensive experiments reveal that DreamDrone significantly surpasses existing methods, delivering highly authentic scene generation with exceptional visual quality. This approach marks a significant step in zero-shot perpetual view generation from textual prompts, enabling the creation of diverse scenes, including natural landscapes like oases and caves, as well as complex urban settings such as Lego-style street views. Our code is publicly available.
Abstract（参考訳）: テキストプロンプトから未公開のフライスルーシーンを生成するための,革新的な手法であるdreamdroneを紹介する。本手法の中心は,拡散モデルにおける中間的特徴の強い対応を利用した特徴対応誘導拡散プロセスである。さらに,この指導戦略を活かして,中間的潜在コード編集のための高度な手法を提案し,幾何学的一貫性を持つ新たなビューの生成を可能にした。大規模な実験により、DreamDroneは既存の手法をはるかに上回り、優れた視覚的品質のシーンを生成することがわかった。このアプローチは、テキストプロンプトからゼロショットの永続ビュー生成において重要なステップであり、オースや洞窟などの自然景観や、レゴスタイルのストリートビューのような複雑な都市環境など、多様なシーンを作成できる。私たちのコードは公開されています。

関連論文リスト

WAVE: Warp-Based View Guidance for Consistent Novel View Synthesis Using a Single Image [3.4248731707266264]
本稿では,モジュールを追加せずに拡散モデルを利用するビュー一貫性画像生成手法を提案する。我々のキーとなる考え方は、適応的な注意操作と雑音の再生を可能にする訓練不要な手法で拡散モデルを強化することである。本手法は,様々な拡散モデル間での視界の整合性を向上し,その適用性を示す。
論文参考訳（メタデータ） (2025-06-30T05:00:47Z)
Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [87.23753533733046]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。 Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文参考訳（メタデータ） (2025-05-29T16:15:48Z)
ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文参考訳（メタデータ） (2024-09-03T16:53:19Z)
Training-Free Sketch-Guided Diffusion with Latent Optimization [22.94468603089249]
本稿では,既存のテキスト・画像生成モデルを拡張してスケッチを付加条件として組み込む,革新的なトレーニングフリーパイプラインを提案する。入力スケッチによく似たレイアウトと構造を持つ新しい画像を生成するために,これらのスケッチの中核となる特徴を拡散モデルのクロスアテンションマップを用いて追跡できることを見出した。本稿では, 生成過程の中間段階において, 雑音に富んだ遅延を洗練させる手法である潜時最適化を導入する。
論文参考訳（メタデータ） (2024-08-31T00:44:03Z)
PlacidDreamer: Advancing Harmony in Text-to-3D Generation [20.022078051436846]
PlacidDreamerは、マルチビュー生成とテキスト条件生成を調和させるテキストから3Dフレームワークである。バランスの取れた飽和を達成するために、新しいスコア蒸留アルゴリズムを採用している。
論文参考訳（メタデータ） (2024-07-19T02:00:04Z)
Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文参考訳（メタデータ） (2024-07-10T19:58:04Z)
OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文参考訳（メタデータ） (2024-06-14T13:16:18Z)
Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文参考訳（メタデータ） (2024-04-28T04:05:10Z)
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文参考訳（メタデータ） (2023-09-30T02:03:22Z)
Zero-shot Generation of Coherent Storybook from Plain Text Story using Diffusion Models [43.32978092618245]
本稿では,ストーリーの平文からコヒーレントなストーリーブックを生成するためのニューラルパイプラインを提案する。我々は,事前学習された大規模言語モデルとテキスト誘導型潜在拡散モデルを組み合わせて,コヒーレントな画像を生成する。
論文参考訳（メタデータ） (2023-02-08T06:24:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。