論文の概要: Diffusion360: Seamless 360 Degree Panoramic Image Generation based on
Diffusion Models
- arxiv url: http://arxiv.org/abs/2311.13141v1
- Date: Wed, 22 Nov 2023 04:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 16:21:39.447164
- Title: Diffusion360: Seamless 360 Degree Panoramic Image Generation based on
Diffusion Models
- Title(参考訳): Diffusion360:拡散モデルに基づくシームレス360度パノラマ画像生成
- Authors: Mengyang Feng, Jinlin Liu, Miaomiao Cui, Xuansong Xie
- Abstract要約: 本報告は拡散モデルに基づく360度パノラマ画像生成タスクに関する技術的報告である。
textbfText-to-360-panoramas と textbfSingle-Image-to-360-panoramas の2つのモデルを提案する。
- 参考スコア(独自算出の注目度): 22.178242496475153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This is a technical report on the 360-degree panoramic image generation task
based on diffusion models. Unlike ordinary 2D images, 360-degree panoramic
images capture the entire $360^\circ\times 180^\circ$ field of view. So the
rightmost and the leftmost sides of the 360 panoramic image should be
continued, which is the main challenge in this field. However, the current
diffusion pipeline is not appropriate for generating such a seamless 360-degree
panoramic image. To this end, we propose a circular blending strategy on both
the denoising and VAE decoding stages to maintain the geometry continuity.
Based on this, we present two models for \textbf{Text-to-360-panoramas} and
\textbf{Single-Image-to-360-panoramas} tasks. The code has been released as an
open-source project at
\href{https://github.com/ArcherFMY/SD-T2I-360PanoImage}{https://github.com/ArcherFMY/SD-T2I-360PanoImage}
and
\href{https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary}{ModelScope}
- Abstract(参考訳): 本報告は拡散モデルに基づく360度パノラマ画像生成タスクに関する技術報告である。
通常の2d画像とは異なり、360度パノラマ画像は360^\circ\times 180^\circ$視野全体を捉える。
したがって、360パノラマ画像の右端と左端は継続する必要がある。
しかし、現在の拡散パイプラインはそのようなシームレスな360度パノラマ画像の生成には適していない。
そこで本研究では,消音段とvae復号段の両方における円ブレンド戦略を提案し,幾何連続性を維持する。
これに基づいて, \textbf{text-to-360-panoramas} と \textbf{single-image-to-360-panoramas} の2つのモデルを示す。
コードは、オープンソースのプロジェクトとして、 \href{https://github.com/ArcherFMY/SD-T2I-360PanoImage}{https://github.com/ArcherFMY/SD-T2I-360PanoImage} と \href{https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary}{ModelScope} でリリースされた。
関連論文リスト
- 360PanT: Training-Free Text-Driven 360-Degree Panorama-to-Panorama Translation [31.569860162173672]
本研究では,テキストベースの360度パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ-パノラマ/パノラマ-パノラマ/パノラマ-パノラマ-パノラマ-パノラマ-パノラマ/パノラマ-パノラマ
360PanTは境界連続性符号化と空間制御によるタイリングシームレス翻訳によってシームレス翻訳を実現する。
論文 参考訳(メタデータ) (2024-09-12T20:56:16Z) - Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors [51.36238367193988]
潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。
SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。
提案手法は,9つの入力ビューから360度映像全体を生成する。
論文 参考訳(メタデータ) (2024-05-26T11:01:39Z) - Taming Stable Diffusion for Text to 360° Panorama Image Generation [74.69314801406763]
そこで本研究では,テキストプロンプトから360度画像を生成するためにPanFusionという2分岐拡散モデルを提案する。
本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:46:14Z) - DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting [56.101576795566324]
テキストから3D 360$circ$のシーン生成パイプラインを提示する。
提案手法は, 2次元拡散モデルの生成力を利用して, 自己複製を促進する。
当社の手法は,360ドル(約3万2000円)の視野内で,グローバルに一貫した3Dシーンを提供する。
論文 参考訳(メタデータ) (2024-04-10T10:46:59Z) - Customizing 360-Degree Panoramas through Text-to-Image Diffusion Models [38.70079108858637]
本稿では,T2I拡散モデルを用いた360度パノラマのカスタマイズに焦点を当てたアプローチを提案する。
これを実現するために、タスク用に特別に設計されたペア画像テキストデータセットをキュレートし、LoRAで事前学習したT2I拡散モデルを微調整する。
本稿では,合成画像の左端と右端の連続性を確保するためのStitchDiffusion法を提案する。
論文 参考訳(メタデータ) (2023-10-28T22:57:24Z) - 360-Degree Panorama Generation from Few Unregistered NFoV Images [16.05306624008911]
360$circ$パノラマはコンピュータグラフィックスの環境光源として広く利用されている。
360ドル ドル タイムス 180ドル パノラマは 特殊で高価な装置のために 困難を招きます
パノディフと呼ばれる新しいパイプラインを提案し、パノラマを360ドル円で効率よく生成する。
論文 参考訳(メタデータ) (2023-08-28T16:21:51Z) - NeO 360: Neural Fields for Sparse View Synthesis of Outdoor Scenes [59.15910989235392]
屋外シーンのスパースビュー合成のためのNeO 360, Neural Fieldを紹介する。
NeO 360は、単一のまたは少数のRGB画像から360degのシーンを再構成する一般化可能な方法である。
我々の表現は、Voxel-basedとBird's-eye-view (BEV)の両方の表現の長所を組み合わせたものである。
論文 参考訳(メタデータ) (2023-08-24T17:59:50Z) - NeuralLift-360: Lifting An In-the-wild 2D Photo to A 3D Object with
360{\deg} Views [77.93662205673297]
本研究では,1枚の画像を3Dオブジェクトに持ち上げるという課題について検討する。
所定の参照画像とよく一致する360度ビューを持つ可視3Dオブジェクトを生成する能力を示す。
本稿では,深度を考慮した放射率表現を用いたニューラルLift-360という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-29T17:59:06Z) - 360{\deg} Optical Flow using Tangent Images [18.146747748702513]
等角射影 (ERP) は、360度画像の保存、処理、視覚化において最も一般的なフォーマットである。
タンジェント画像に基づく360度光フロー法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:50:46Z) - Visual Question Answering on 360{\deg} Images [96.00046925811515]
VQA 360は、360度画像上で視覚的な質問に答える新しいタスクである。
最初のVQA 360データセットを収集し、様々な質問タイプに対して、約17,000の現実世界の画像検索用トリプルを含む。
論文 参考訳(メタデータ) (2020-01-10T08:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。