論文の概要: Customizing 360-Degree Panoramas through Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2310.18840v2
- Date: Tue, 7 Nov 2023 23:08:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 18:32:55.737494
- Title: Customizing 360-Degree Panoramas through Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルによる360度パノラマのカスタマイズ
- Authors: Hai Wang, Xiaoyu Xiang, Yuchen Fan, Jing-Hao Xue
- Abstract要約: 本稿では,T2I拡散モデルを用いた360度パノラマのカスタマイズに焦点を当てたアプローチを提案する。
これを実現するために、タスク用に特別に設計されたペア画像テキストデータセットをキュレートし、LoRAで事前学習したT2I拡散モデルを微調整する。
本稿では,合成画像の左端と右端の連続性を確保するためのStitchDiffusion法を提案する。
- 参考スコア(独自算出の注目度): 38.70079108858637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized text-to-image (T2I) synthesis based on diffusion models has
attracted significant attention in recent research. However, existing methods
primarily concentrate on customizing subjects or styles, neglecting the
exploration of global geometry. In this study, we propose an approach that
focuses on the customization of 360-degree panoramas, which inherently possess
global geometric properties, using a T2I diffusion model. To achieve this, we
curate a paired image-text dataset specifically designed for the task and
subsequently employ it to fine-tune a pre-trained T2I diffusion model with
LoRA. Nevertheless, the fine-tuned model alone does not ensure the continuity
between the leftmost and rightmost sides of the synthesized images, a crucial
characteristic of 360-degree panoramas. To address this issue, we propose a
method called StitchDiffusion. Specifically, we perform pre-denoising
operations twice at each time step of the denoising process on the stitch block
consisting of the leftmost and rightmost image regions. Furthermore, a global
cropping is adopted to synthesize seamless 360-degree panoramas. Experimental
results demonstrate the effectiveness of our customized model combined with the
proposed StitchDiffusion in generating high-quality 360-degree panoramic
images. Moreover, our customized model exhibits exceptional generalization
ability in producing scenes unseen in the fine-tuning dataset. Code is
available at https://github.com/littlewhitesea/StitchDiffusion.
- Abstract(参考訳): 近年,拡散モデルに基づくPersonalized Text-to-image (T2I) 合成が注目されている。
しかし、既存の手法は主に主題やスタイルをカスタマイズすることに集中し、グローバルな幾何学の探求を無視している。
本研究では,t2i拡散モデルを用いて,大域的な幾何学的性質を本質的に有する360度パノラマのカスタマイズに焦点をあてたアプローチを提案する。
これを実現するために、タスク用に特別に設計されたペア画像テキストデータセットをキュレートし、LoRAで事前学習したT2I拡散モデルを微調整する。
それでも、微調整されたモデルだけでは合成画像の左端と右端の連続性が保証されず、360度パノラマの重要な特徴である。
そこで本研究では,StitchDiffusionと呼ばれる手法を提案する。
具体的には、左端画像領域と右端画像領域からなる縫合ブロックにおいて、デノナイジングプロセスの各ステップ毎に2回、プレデノナイジング操作を行う。
さらに,360度パノラマをシームレスに合成するためにグローバルクロッピングが採用されている。
実験の結果,360度パノラマ画像生成におけるstitchdiffusionと組み合わせたカスタマイズモデルの有効性が実証された。
さらに,カスタマイズしたモデルでは,微調整されたデータセットでは見当たらないシーンを生成できる特異な一般化能力を示す。
コードはhttps://github.com/littlewhitesea/StitchDiffusionで入手できる。
関連論文リスト
- Towards High-Fidelity 3D Portrait Generation with Rich Details by Cross-View Prior-Aware Diffusion [63.81544586407943]
シングルイメージの3Dポートレート生成法は通常、多視点の知識を提供するために2次元拡散モデルを使用し、それを3次元表現に蒸留する。
本稿では,複数ビュー画像の状態の整合性を高める条件として,複数ビュー先行を明示的かつ暗黙的に組み込んだハイブリッド優先ディフジョンモデルを提案する。
実験により,1枚の画像から正確な幾何学的,詳細な3次元像を作成できることが示された。
論文 参考訳(メタデータ) (2024-11-15T17:19:18Z) - Taming Stable Diffusion for Text to 360° Panorama Image Generation [74.69314801406763]
そこで本研究では,テキストプロンプトから360度画像を生成するためにPanFusionという2分岐拡散モデルを提案する。
本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:46:14Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Customize-It-3D: High-Quality 3D Creation from A Single Image Using
Subject-Specific Knowledge Prior [33.45375100074168]
本稿では,参照画像から提供された情報をフル活用して,画像から3D生成に先立ってカスタマイズされた知識を確立する,新しい2段階のアプローチを提案する。
実験では,本手法の優位性であるCustomize-It-3Dが,従来よりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-12-15T19:07:51Z) - Optimized View and Geometry Distillation from Multi-view Diffuser [20.47237377203664]
本研究では,2次元拡散モデルから無条件雑音を利用するUnbiased Score Distillation (USD)を提案する。
本研究では2次元拡散モデルの2段階の特殊化プロセスを開発する。
最後に,改良された多視点画像から直接忠実な形状とテクスチャを復元する。
論文 参考訳(メタデータ) (2023-12-11T08:22:24Z) - Advancing Pose-Guided Image Synthesis with Progressive Conditional Diffusion Models [13.019535928387702]
本稿では,ターゲット下の人物像とソースポーズのギャップを段階的に橋渡しするプログレッシブ条件拡散モデル(PCDM)を提案する。
定性的かつ定量的な結果は,難解なシナリオ下で提案したPCDMの一貫性と光現実性を示すものである。
論文 参考訳(メタデータ) (2023-10-10T05:13:17Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - OPDN: Omnidirectional Position-aware Deformable Network for
Omnidirectional Image Super-Resolution [18.138867445188293]
我々は360度全方位画像超解像のための2段階のフレームワークを提案する。
提案手法は,360deg全方位画像超解像のNTIRE 2023チャレンジにおいて,優れた性能を実現している。
論文 参考訳(メタデータ) (2023-04-26T11:47:40Z) - Enhancement of Novel View Synthesis Using Omnidirectional Image
Completion [61.78187618370681]
ニューラルレイディアンス場(NeRF)に基づく1枚の360度RGB-D画像から新しいビューを合成する方法を提案する。
実験により,提案手法は実世界と実世界の両方でシーンの特徴を保ちながら,可塑性な新規なビューを合成できることが実証された。
論文 参考訳(メタデータ) (2022-03-18T13:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。