論文の概要: Taming Stable Diffusion for Text to 360° Panorama Image Generation
- arxiv url: http://arxiv.org/abs/2404.07949v1
- Date: Thu, 11 Apr 2024 17:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 13:01:15.209233
- Title: Taming Stable Diffusion for Text to 360° Panorama Image Generation
- Title(参考訳): テキストから360°パノラマ画像生成のためのスタブル拡散処理
- Authors: Cheng Zhang, Qianyi Wu, Camilo Cruz Gambardella, Xiaoshui Huang, Dinh Phung, Wanli Ouyang, Jianfei Cai,
- Abstract要約: そこで本研究では,テキストプロンプトから360度画像を生成するためにPanFusionという2分岐拡散モデルを提案する。
本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
- 参考スコア(独自算出の注目度): 74.69314801406763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models, e.g., Stable Diffusion, have enabled the creation of photorealistic images from text prompts. Yet, the generation of 360-degree panorama images from text remains a challenge, particularly due to the dearth of paired text-panorama data and the domain gap between panorama and perspective images. In this paper, we introduce a novel dual-branch diffusion model named PanFusion to generate a 360-degree image from a text prompt. We leverage the stable diffusion model as one branch to provide prior knowledge in natural image generation and register it to another panorama branch for holistic image generation. We propose a unique cross-attention mechanism with projection awareness to minimize distortion during the collaborative denoising process. Our experiments validate that PanFusion surpasses existing methods and, thanks to its dual-branch structure, can integrate additional constraints like room layout for customized panorama outputs. Code is available at https://chengzhag.github.io/publication/panfusion.
- Abstract(参考訳): 例えば、安定拡散(Stable Diffusion)と呼ばれる生成モデルは、テキストプロンプトからフォトリアリスティックな画像を作成することができる。
しかし、テキストから360度パノラマ画像を生成することは、特にペアのテキスト・パノラマデータと、パノラマ画像と視点画像の領域ギャップにより、依然として課題である。
本稿では,テキストプロンプトから360度画像を生成するために,PanFusionという新しい二重分岐拡散モデルを提案する。
安定拡散モデルを一つの分岐として利用して、自然画像生成の事前知識を提供し、それを他のパノラマブランチに登録し、全体像生成を行う。
本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
実験により、PanFusionは既存の手法を超越し、そのデュアルブランチ構造により、カスタマイズされたパノラマ出力のための部屋レイアウトのような追加の制約を統合することができることを確認した。
コードはhttps://chengzhag.github.io/publication/panfusion.orgで公開されている。
関連論文リスト
- DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - SceneDreamer360: Text-Driven 3D-Consistent Scene Generation with Panoramic Gaussian Splatting [53.32467009064287]
テキスト駆動型3D一貫性シーン生成モデルSceneDreamer360を提案する。
提案手法は,テキスト駆動パノラマ画像生成モデルを3次元シーン生成の先行モデルとして活用する。
SceneDreamer360はそのパノラマ画像生成と3DGSにより、より高品質で空間的に整合性があり、視覚的に魅力的な3Dシーンを任意のテキストプロンプトから生成できることを示した。
論文 参考訳(メタデータ) (2024-08-25T02:56:26Z) - PanoFree: Tuning-Free Holistic Multi-view Image Generation with Cross-view Self-Guidance [37.45462643757252]
PanoFreeは、チューニング不要なマルチビュー画像生成のための新しい方法である。
微調整を必要とせず、エラーの蓄積による一貫性とアーティファクトの重要な問題に対処する。
エラーの大幅な削減、グローバルな一貫性の向上、微調整を余分に行わずに画質の向上を実現している。
論文 参考訳(メタデータ) (2024-08-04T22:23:10Z) - OPa-Ma: Text Guided Mamba for 360-degree Image Out-painting [9.870063736691556]
我々は,従来の狭視野画像(NFoV)から360度画像を生成するという,最近の話題に対処する。
この課題は、NFoV画像から合理的で一貫した環境を予測することを目的としている。
そこで本稿では,Mambaと呼ばれる状態空間モデルを備えた新しいテキスト誘導アウトペイントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:23:00Z) - Customizing 360-Degree Panoramas through Text-to-Image Diffusion Models [38.70079108858637]
本稿では,T2I拡散モデルを用いた360度パノラマのカスタマイズに焦点を当てたアプローチを提案する。
これを実現するために、タスク用に特別に設計されたペア画像テキストデータセットをキュレートし、LoRAで事前学習したT2I拡散モデルを微調整する。
本稿では,合成画像の左端と右端の連続性を確保するためのStitchDiffusion法を提案する。
論文 参考訳(メタデータ) (2023-10-28T22:57:24Z) - 360-Degree Panorama Generation from Few Unregistered NFoV Images [16.05306624008911]
360$circ$パノラマはコンピュータグラフィックスの環境光源として広く利用されている。
360ドル ドル タイムス 180ドル パノラマは 特殊で高価な装置のために 困難を招きます
パノディフと呼ばれる新しいパイプラインを提案し、パノラマを360ドル円で効率よく生成する。
論文 参考訳(メタデータ) (2023-08-28T16:21:51Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。