論文の概要: DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion
- arxiv url: http://arxiv.org/abs/2410.24203v1
- Date: Thu, 31 Oct 2024 17:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:02:28.363169
- Title: DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion
- Title(参考訳): DiffPano: 球面極性認識拡散によるパノラマ生成のためのスケーラブルで一貫性のあるテキスト
- Authors: Weicai Ye, Chenhao Ji, Zheng Chen, Junyao Gao, Xiaoshui Huang, Song-Hai Zhang, Wanli Ouyang, Tong He, Cairong Zhao, Guofeng Zhang,
- Abstract要約: 本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
- 参考スコア(独自算出の注目度): 60.45000652592418
- License:
- Abstract: Diffusion-based methods have achieved remarkable achievements in 2D image or 3D object generation, however, the generation of 3D scenes and even $360^{\circ}$ images remains constrained, due to the limited number of scene datasets, the complexity of 3D scenes themselves, and the difficulty of generating consistent multi-view images. To address these issues, we first establish a large-scale panoramic video-text dataset containing millions of consecutive panoramic keyframes with corresponding panoramic depths, camera poses, and text descriptions. Then, we propose a novel text-driven panoramic generation framework, termed DiffPano, to achieve scalable, consistent, and diverse panoramic scene generation. Specifically, benefiting from the powerful generative capabilities of stable diffusion, we fine-tune a single-view text-to-panorama diffusion model with LoRA on the established panoramic video-text dataset. We further design a spherical epipolar-aware multi-view diffusion model to ensure the multi-view consistency of the generated panoramic images. Extensive experiments demonstrate that DiffPano can generate scalable, consistent, and diverse panoramic images with given unseen text descriptions and camera poses.
- Abstract(参考訳): 拡散に基づく手法は、2D画像や3Dオブジェクト生成において顕著な成果を上げてきたが、3Dシーンの生成や360^{\circ}$画像の生成は、シーンデータセットの限られた数、3Dシーン自体の複雑さ、一貫性のあるマルチビュー画像の生成の難しさなど、制約が残っている。
これらの問題に対処するために、我々はまず、パノラマ奥行き、カメラポーズ、テキスト記述に対応する数百万のパノラマキーフレームを含む大規模パノラマビデオテキストデータセットを構築した。
そこで本研究では,拡張性,一貫性,多様なパノラマシーン生成を実現するために,DiffPanoと呼ばれるテキスト駆動パノラマ生成フレームワークを提案する。
具体的には、安定拡散の強力な生成能力の恩恵を受け、確立したパノラマビデオテキストデータセット上で、LoRAを用いて単一ビューのテキスト-パノラマ拡散モデルを微調整する。
さらに,生成したパノラマ画像の多視点一貫性を確保するために,球面エピポーラ対応多視点拡散モデルを設計する。
大規模な実験により、DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、スケーラブルで一貫性があり、多様なパノラマ画像を生成することができることが示された。
関連論文リスト
- VidPanos: Generative Panoramic Videos from Casual Panning Videos [73.77443496436749]
パノラマ画像ステッチは、カメラの視野を越えて広がるシーンの統一された広角ビューを提供する。
本稿では,カジュアルにキャプチャされたパンニングビデオからパノラマ動画を合成する方法を提案する。
我々のシステムは、人、車、流れる水など、さまざまな場所のシーンにビデオパノラマを作成できる。
論文 参考訳(メタデータ) (2024-10-17T17:53:24Z) - SceneDreamer360: Text-Driven 3D-Consistent Scene Generation with Panoramic Gaussian Splatting [53.32467009064287]
テキスト駆動型3D一貫性シーン生成モデルSceneDreamer360を提案する。
提案手法は,テキスト駆動パノラマ画像生成モデルを3次元シーン生成の先行モデルとして活用する。
SceneDreamer360はそのパノラマ画像生成と3DGSにより、より高品質で空間的に整合性があり、視覚的に魅力的な3Dシーンを任意のテキストプロンプトから生成できることを示した。
論文 参考訳(メタデータ) (2024-08-25T02:56:26Z) - LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation [105.52153675890408]
3D没入型シーン生成はコンピュータビジョンとグラフィックスにおいて難しいが重要な課題である。
LayerPano3Dは、単一のテキストプロンプトからフルビューで探索可能なパノラマ3Dシーンを生成するための新しいフレームワークである。
論文 参考訳(メタデータ) (2024-08-23T17:50:23Z) - Pano2Room: Novel View Synthesis from a Single Indoor Panorama [20.262621556667852]
Pano2Roomは、1枚のパノラマ画像から高品質な3D屋内シーンを自動的に再構築するように設計されている。
鍵となるアイデアは、最初に入力パノラマから予備メッシュを構築し、パノラマRGBDインペイントを使用して反復的にこのメッシュを洗練することである。
精巧なメッシュは3次元ガウス散乱場に変換され、収集された擬似ノベルビューで訓練される。
論文 参考訳(メタデータ) (2024-08-21T08:19:12Z) - HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions [31.342899807980654]
3Dシーン生成は、仮想現実、ゲーム、映画産業など、さまざまな領域で高い需要がある。
フル3Dシーンの全体的初期化として,最初に高精細パノラマを生成するフレームワークであるHoloDreamerを紹介する。
そして、3Dガウススティング(3D-GS)を活用して3Dシーンを迅速に再構築し、ビュー一貫性と完全に囲まれた3Dシーンの作成を容易にする。
論文 参考訳(メタデータ) (2024-07-21T14:52:51Z) - Taming Stable Diffusion for Text to 360° Panorama Image Generation [74.69314801406763]
そこで本研究では,テキストプロンプトから360度画像を生成するためにPanFusionという2分岐拡散モデルを提案する。
本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:46:14Z) - PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline
Panoramas [54.4948540627471]
広帯域パノラマのための一般化可能な球面放射場パノGRFを提案する。
パノGRFは、視線画像に基づいて訓練された一般化可能な放射場とは異なり、パノラマからパースペクティブへの変換から情報損失を回避する。
複数のパノラマデータセットの結果は、パノGRFが最先端の一般化可能なビュー合成法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2023-06-02T13:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。