論文の概要: SphereDiffusion: Spherical Geometry-Aware Distortion Resilient Diffusion Model
- arxiv url: http://arxiv.org/abs/2403.10044v1
- Date: Fri, 15 Mar 2024 06:26:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 18:29:12.340523
- Title: SphereDiffusion: Spherical Geometry-Aware Distortion Resilient Diffusion Model
- Title(参考訳): 球拡散:球形幾何-歪みを考慮した弾性拡散モデル
- Authors: Tao Wu, Xuewei Li, Zhongang Qi, Di Hu, Xintao Wang, Ying Shan, Xi Li,
- Abstract要約: 制御可能な球状パノラマ画像生成は、様々な領域でかなりの応用可能性を持っている。
本稿では,これらの課題に対処するために,SphereDiffusionの新しいフレームワークを提案する。
Structured3Dデータセットの実験では、SphereDiffusionは制御可能な球面画像生成の品質を大幅に改善し、平均して約35%のFIDを相対的に削減している。
- 参考スコア(独自算出の注目度): 63.685132323224124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable spherical panoramic image generation holds substantial applicative potential across a variety of domains.However, it remains a challenging task due to the inherent spherical distortion and geometry characteristics, resulting in low-quality content generation.In this paper, we introduce a novel framework of SphereDiffusion to address these unique challenges, for better generating high-quality and precisely controllable spherical panoramic images.For the spherical distortion characteristic, we embed the semantics of the distorted object with text encoding, then explicitly construct the relationship with text-object correspondence to better use the pre-trained knowledge of the planar images.Meanwhile, we employ a deformable technique to mitigate the semantic deviation in latent space caused by spherical distortion.For the spherical geometry characteristic, in virtue of spherical rotation invariance, we improve the data diversity and optimization objectives in the training process, enabling the model to better learn the spherical geometry characteristic.Furthermore, we enhance the denoising process of the diffusion model, enabling it to effectively use the learned geometric characteristic to ensure the boundary continuity of the generated images.With these specific techniques, experiments on Structured3D dataset show that SphereDiffusion significantly improves the quality of controllable spherical image generation and relatively reduces around 35% FID on average.
- Abstract(参考訳): 制御可能な球状パノラマ画像生成は, 様々な領域でかなりの応用可能性を持つが, 低品質なコンテンツ生成を実現するため, 固有の球状歪みと幾何学的特性により, 依然として困難な課題である。この記事では, 高品質で正確に制御可能な球状パノラマ画像を生成するための, SphereDiffusionの新しい枠組みを導入する。球状歪み特性には, 歪んだ物体のセマンティックスをテキストエンコーディングで埋め込むとともに, テキストオブジェクトの対応関係を明示的に構築し, 平面画像の事前訓練された知識をよりよく活用する。一方, 球状歪みによる遅延空間におけるセマンティックディフィケーションを緩和するために, 変形性のある技術を用いて, 球状変形による空間的偏差を緩和する。
関連論文リスト
- AniSDF: Fused-Granularity Neural Surfaces with Anisotropic Encoding for High-Fidelity 3D Reconstruction [55.69271635843385]
AniSDF(AniSDF)は,高忠実度3次元再構成のための物理に基づく符号化による融合粒度ニューラルサーフェスを学習する新しいアプローチである。
本手法は, 幾何再構成と新規ビュー合成の両面において, SDF法の品質を飛躍的に向上させる。
論文 参考訳(メタデータ) (2024-10-02T03:10:38Z) - Curved Diffusion: A Generative Model With Optical Geometry Control [56.24220665691974]
最終シーンの外観に対する異なる光学系の影響は、しばしば見過ごされる。
本研究では,画像レンダリングに使用される特定のレンズとテキスト画像拡散モデルを密接に統合するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-29T13:06:48Z) - Controlling Text-to-Image Diffusion by Orthogonal Finetuning [74.21549380288631]
そこで本研究では,テキストから画像への拡散モデルを下流タスクに適用するための原理的な微調整手法であるorthogonal Finetuning(OFT)を提案する。
既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。
我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-06-12T17:59:23Z) - Pixelated Reconstruction of Foreground Density and Background Surface
Brightness in Gravitational Lensing Systems using Recurrent Inference
Machines [116.33694183176617]
我々は、リカレント推論マシンに基づくニューラルネットワークを用いて、背景画像の歪みのない画像と、画素マップとしてのレンズ質量密度分布を再構成する。
従来のパラメトリックモデルと比較して、提案手法はより表現力が高く、複雑な質量分布を再構成することができる。
論文 参考訳(メタデータ) (2023-01-10T19:00:12Z) - Generative Deformable Radiance Fields for Disentangled Image Synthesis
of Topology-Varying Objects [52.46838926521572]
3D認識生成モデルは、モノクロ2D画像の集合から3Dニューラル放射場(NeRF)を生成するスーパーブパフォーマンスを実証した。
本研究では, トポロジー変化物体の放射場を非交絡形状と外観変化で合成する生成モデルを提案する。
論文 参考訳(メタデータ) (2022-09-09T08:44:06Z) - NeurInt : Learning to Interpolate through Neural ODEs [18.104328632453676]
本稿では,2つの画像間の軌跡分布を学習する新しい生成モデルを提案する。
提案手法の有効性を示すとともに,画像の品質向上と,実画像と対象画像の任意のペアに対して,スムーズな軌道上の多様な分布を学習する能力を示す。
論文 参考訳(メタデータ) (2021-11-07T16:31:18Z) - Disentangling Geometric Deformation Spaces in Generative Latent Shape
Models [5.582957809895198]
3Dオブジェクトの完全な表現には、解釈可能な方法で変形の空間を特徴づける必要がある。
本研究では,物体形状の空間を剛性方向,非剛性ポーズ,内在的な形状に分解する3次元形状の不整合の事前生成モデルを改善する。
得られたモデルは生の3D形状からトレーニングできる。
論文 参考訳(メタデータ) (2021-02-27T06:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。