論文の概要: SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation
- arxiv url: http://arxiv.org/abs/2504.14396v1
- Date: Sat, 19 Apr 2025 19:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:49:43.118224
- Title: SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation
- Title(参考訳): SphereDiff: 球ラテント表現による調整不要全方位パノラマ画像とビデオ生成
- Authors: Minho Park, Taewoong Kang, Jooyeol Yun, Sungwon Hwang, Jaegul Choo,
- Abstract要約: そこで我々はSphereDiffを紹介した。これはシームレスな360度パノラマ画像とビデオ生成のための新しいアプローチである。
我々は,多次元拡散を球状潜在空間に拡張し,事前学習した拡散モデルの直接利用を可能にする球状潜在サンプリング法を提案する。
提案手法は,高忠実度を維持しながら360度パノラマコンテンツを生成する既存手法よりも優れており,没入型AR/VRアプリケーションのための堅牢なソリューションとなっている。
- 参考スコア(独自算出の注目度): 31.305851707485967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing demand for AR/VR applications has highlighted the need for high-quality 360-degree panoramic content. However, generating high-quality 360-degree panoramic images and videos remains a challenging task due to the severe distortions introduced by equirectangular projection (ERP). Existing approaches either fine-tune pretrained diffusion models on limited ERP datasets or attempt tuning-free methods that still rely on ERP latent representations, leading to discontinuities near the poles. In this paper, we introduce SphereDiff, a novel approach for seamless 360-degree panoramic image and video generation using state-of-the-art diffusion models without additional tuning. We define a spherical latent representation that ensures uniform distribution across all perspectives, mitigating the distortions inherent in ERP. We extend MultiDiffusion to spherical latent space and propose a spherical latent sampling method to enable direct use of pretrained diffusion models. Moreover, we introduce distortion-aware weighted averaging to further improve the generation quality in the projection process. Our method outperforms existing approaches in generating 360-degree panoramic content while maintaining high fidelity, making it a robust solution for immersive AR/VR applications. The code is available here. https://github.com/pmh9960/SphereDiff
- Abstract(参考訳): AR/VRアプリケーションへの需要の増加は、高品質な360度パノラマコンテンツの必要性を浮き彫りにした。
しかし、等角射影(ERP)によって引き起こされる激しい歪みのため、高画質の360度パノラマ画像やビデオを生成することは難しい課題である。
既存のアプローチでは、制限されたERPデータセット上の微調整済み拡散モデルや、まだERPの潜在表現に依存しているチューニング不要な手法を試行することで、極付近の不連続が生じる。
本稿では,新しい360度パノラマ画像と映像生成手法であるSphereDiffを紹介する。
球面潜在表現を定義し、すべての視点で均一な分布を保証し、ERPに固有の歪みを緩和する。
我々は,多次元拡散を球状潜在空間に拡張し,事前学習した拡散モデルの直接利用を可能にする球状潜在サンプリング法を提案する。
さらに、投影過程における生成品質をさらに向上するために、歪み認識重み付き平均化を導入する。
提案手法は,高忠実度を維持しながら360度パノラマコンテンツを生成する既存手法よりも優れており,没入型AR/VRアプリケーションのための堅牢なソリューションとなっている。
コードはここにある。
https://github.com/pmh9960/SphereDiff
関連論文リスト
- Beyond Wide-Angle Images: Unsupervised Video Portrait Correction via Spatiotemporal Diffusion Adaptation [46.16087086554505]
拡散モデルを用いた画像像補正フレームワークであるImagePDを提案する。
トランスフォーマーの長距離認識と拡散モデルのマルチステップ認知を統合フレームワークに統合する。
実験により,提案手法は既存の解よりも定量的に,質的に優れていることが示された。
論文 参考訳(メタデータ) (2025-04-01T03:49:59Z) - 3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement [66.8116563135326]
本稿では,多視点遅延拡散モデルを用いて,多視点一貫性を維持しながら粗い3次元入力を強化する3DEnhancerを提案する。
既存のビデオベースアプローチとは異なり、我々のモデルは多様な視角のコヒーレンスを改善したシームレスなマルチビュー拡張をサポートする。
論文 参考訳(メタデータ) (2024-12-24T17:36:34Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior [53.52396082006044]
現在の手法では、トレーニングの観点から大きく逸脱する観点で、レンダリングの品質を維持するのに苦労しています。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルを用いて3DGSのキャパシティを向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:20:29Z) - Neural Point Cloud Diffusion for Disentangled 3D Shape and Appearance Generation [29.818827785812086]
コントロール可能な3Dアセットの生成は、映画、ゲーム、エンジニアリングにおけるコンテンツ作成やAR/VRなど、多くの実用的なアプリケーションにとって重要である。
本稿では,3次元拡散モデルに対して,ハイブリッド点雲とニューラル放射場アプローチを導入することで,絡み合いを実現するための適切な表現を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:46:27Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - CAD: Photorealistic 3D Generation via Adversarial Distillation [28.07049413820128]
本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。
提案手法は,1つの画像に条件付された高忠実かつ光リアルな3Dコンテンツの生成を解放し,プロンプトを行う。
論文 参考訳(メタデータ) (2023-12-11T18:59:58Z) - EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion [60.30030562932703]
EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。
16枚のマルチビュー画像をわずか12秒で生成する。
品質評価の指標では、以前の手法を上回ります。
論文 参考訳(メタデータ) (2023-12-11T05:20:52Z) - Light Field Diffusion for Single-View Novel View Synthesis [32.59286750410843]
NVS(Single-view novel view synthesis)は、コンピュータビジョンにおいて重要であるが困難である。
NVSの最近の進歩は、高忠実度画像を生成するのに優れた能力として、Denoising Diffusion Probabilistic Models (DDPMs)を活用している。
光電界拡散(LFD)は,従来のカメラポーズ行列への依存を超越した,条件拡散に基づく新しいアプローチである。
論文 参考訳(メタデータ) (2023-09-20T03:27:06Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。