Fugu-MT 論文翻訳(概要): DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion

論文の概要: DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion

arxiv url: http://arxiv.org/abs/2410.24203v1
Date: Thu, 31 Oct 2024 17:57:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.97692
Title: DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion
Title（参考訳）: DiffPano: 球面極性認識拡散によるパノラマ生成のためのスケーラブルで一貫性のあるテキスト
Authors: Weicai Ye, Chenhao Ji, Zheng Chen, Junyao Gao, Xiaoshui Huang, Song-Hai Zhang, Wanli Ouyang, Tong He, Cairong Zhao, Guofeng Zhang,
Abstract要約: 本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。 DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
参考スコア（独自算出の注目度）: 60.45000652592418
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Diffusion-based methods have achieved remarkable achievements in 2D image or 3D object generation, however, the generation of 3D scenes and even $360^{\circ}$ images remains constrained, due to the limited number of scene datasets, the complexity of 3D scenes themselves, and the difficulty of generating consistent multi-view images. To address these issues, we first establish a large-scale panoramic video-text dataset containing millions of consecutive panoramic keyframes with corresponding panoramic depths, camera poses, and text descriptions. Then, we propose a novel text-driven panoramic generation framework, termed DiffPano, to achieve scalable, consistent, and diverse panoramic scene generation. Specifically, benefiting from the powerful generative capabilities of stable diffusion, we fine-tune a single-view text-to-panorama diffusion model with LoRA on the established panoramic video-text dataset. We further design a spherical epipolar-aware multi-view diffusion model to ensure the multi-view consistency of the generated panoramic images. Extensive experiments demonstrate that DiffPano can generate scalable, consistent, and diverse panoramic images with given unseen text descriptions and camera poses.
Abstract（参考訳）: 拡散に基づく手法は、2D画像や3Dオブジェクト生成において顕著な成果を上げてきたが、3Dシーンの生成や360^{\circ}$画像の生成は、シーンデータセットの限られた数、3Dシーン自体の複雑さ、一貫性のあるマルチビュー画像の生成の難しさなど、制約が残っている。これらの問題に対処するために、我々はまず、パノラマ奥行き、カメラポーズ、テキスト記述に対応する数百万のパノラマキーフレームを含む大規模パノラマビデオテキストデータセットを構築した。そこで本研究では,拡張性,一貫性,多様なパノラマシーン生成を実現するために,DiffPanoと呼ばれるテキスト駆動パノラマ生成フレームワークを提案する。具体的には、安定拡散の強力な生成能力の恩恵を受け、確立したパノラマビデオテキストデータセット上で、LoRAを用いて単一ビューのテキスト-パノラマ拡散モデルを微調整する。さらに,生成したパノラマ画像の多視点一貫性を確保するために,球面エピポーラ対応多視点拡散モデルを設計する。大規模な実験により、DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、スケーラブルで一貫性があり、多様なパノラマ画像を生成することができることが示された。

関連論文リスト

PanoWorld-X: Generating Explorable Panoramic Worlds via Sphere-Aware Video Diffusion [87.13016347332943]
PanoWorld-Xは、多彩なカメラ軌道を持つ高忠実で制御可能なパノラマビデオ生成のための新しいフレームワークである。動作範囲,制御精度,視覚的品質など,様々な面で優れた性能を示す実験を行った。
論文参考訳（メタデータ） (2025-09-29T16:22:00Z)
TiP4GEN: Text to Immersive Panorama 4D Scene Generation [82.8444414014506]
TiP4GENはテキストから動的パノラマシーン生成フレームワークである。微粒なコンテンツ制御を可能にし、動きに富んだ幾何学的なパノラマ4Dシーンを合成する。 TiP4GENはパノラマビデオ生成と動的シーン再構成を統合し、360度没入型仮想環境を作成する。
論文参考訳（メタデータ） (2025-08-17T16:02:24Z)
DreamCube: 3D Panorama Generation via Multi-plane Synchronization [17.690754213112108]
3Dパノラマ合成は、生成した全方位コンテンツの高品質で多様な視覚的外観と幾何学を必要とする、有望だが挑戦的なタスクである。既存の手法では、事前訓練された2D基礎モデルのリッチ画像の事前利用により、3Dパノラマデータの不足を回避することができる。本研究では、2次元基礎モデルから演算子に多面同期を適用することにより、その機能を全方位領域にシームレスに拡張できることを実証する。
論文参考訳（メタデータ） (2025-06-20T17:55:06Z)
PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms [41.92179513409301]
既存のパノラマビデオ生成モデルは、高品質なパノラマビデオのための従来のテキスト・ツー・ビデオ・モデルから事前訓練された生成先を活用するのに苦労している。本稿では,パノラマ領域に最小限のモジュールを備えた事前学習されたテキスト・ビデオ・モデルを効果的に持ち上げるパノラマモデルを提案する。これらの揚力表現を学習するためのパノラマビデオを提供するため、キャプションと多様なシナリオを備えた高品質なパノラマビデオデータセットであるPanoVidをコントリビュートする。
論文参考訳（メタデータ） (2025-05-28T06:24:21Z)
VidPanos: Generative Panoramic Videos from Casual Panning Videos [73.77443496436749]
パノラマ画像ステッチは、カメラの視野を越えて広がるシーンの統一された広角ビューを提供する。本稿では,カジュアルにキャプチャされたパンニングビデオからパノラマ動画を合成する方法を提案する。我々のシステムは、人、車、流れる水など、さまざまな場所のシーンにビデオパノラマを作成できる。
論文参考訳（メタデータ） (2024-10-17T17:53:24Z)
SceneDreamer360: Text-Driven 3D-Consistent Scene Generation with Panoramic Gaussian Splatting [53.32467009064287]
テキスト駆動型3D一貫性シーン生成モデルSceneDreamer360を提案する。提案手法は,テキスト駆動パノラマ画像生成モデルを3次元シーン生成の先行モデルとして活用する。 SceneDreamer360はそのパノラマ画像生成と3DGSにより、より高品質で空間的に整合性があり、視覚的に魅力的な3Dシーンを任意のテキストプロンプトから生成できることを示した。
論文参考訳（メタデータ） (2024-08-25T02:56:26Z)
LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation [105.52153675890408]
3D没入型シーン生成はコンピュータビジョンとグラフィックスにおいて難しいが重要な課題である。 LayerPano3Dは、単一のテキストプロンプトからフルビューで探索可能なパノラマ3Dシーンを生成するための新しいフレームワークである。
論文参考訳（メタデータ） (2024-08-23T17:50:23Z)
Pano2Room: Novel View Synthesis from a Single Indoor Panorama [20.262621556667852]
Pano2Roomは、1枚のパノラマ画像から高品質な3D屋内シーンを自動的に再構築するように設計されている。鍵となるアイデアは、最初に入力パノラマから予備メッシュを構築し、パノラマRGBDインペイントを使用して反復的にこのメッシュを洗練することである。精巧なメッシュは3次元ガウス散乱場に変換され、収集された擬似ノベルビューで訓練される。
論文参考訳（メタデータ） (2024-08-21T08:19:12Z)
HoloDreamer: Holistic 3D Panoramic World Generation from Text Descriptions [31.342899807980654]
3Dシーン生成は、仮想現実、ゲーム、映画産業など、さまざまな領域で高い需要がある。フル3Dシーンの全体的初期化として,最初に高精細パノラマを生成するフレームワークであるHoloDreamerを紹介する。そして、3Dガウススティング(3D-GS)を活用して3Dシーンを迅速に再構築し、ビュー一貫性と完全に囲まれた3Dシーンの作成を容易にする。
論文参考訳（メタデータ） (2024-07-21T14:52:51Z)
Taming Stable Diffusion for Text to 360° Panorama Image Generation [74.69314801406763]
そこで本研究では,テキストプロンプトから360度画像を生成するためにPanFusionという2分岐拡散モデルを提案する。本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
論文参考訳（メタデータ） (2024-04-11T17:46:14Z)
PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline Panoramas [54.4948540627471]
広帯域パノラマのための一般化可能な球面放射場パノGRFを提案する。パノGRFは、視線画像に基づいて訓練された一般化可能な放射場とは異なり、パノラマからパースペクティブへの変換から情報損失を回避する。複数のパノラマデータセットの結果は、パノGRFが最先端の一般化可能なビュー合成法よりも著しく優れていることを示している。
論文参考訳（メタデータ） (2023-06-02T13:35:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。