論文の概要: What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?
- arxiv url: http://arxiv.org/abs/2505.22129v1
- Date: Wed, 28 May 2025 08:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.514897
- Title: What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?
- Title(参考訳): 安定拡散によるテキストから360度パノラマ生成
- Authors: Jinhong Ni, Chang-Bin Zhang, Qiang Zhang, Jing Zhang,
- Abstract要約: 従来の低ランク適応技術を用いてパノラマ画像を生成することが可能であった。
我々はUniPanoと呼ばれるシンプルなフレームワークを導入し、将来の研究のエレガントなベースラインを確立することを目的としている。
- 参考スコア(独自算出の注目度): 16.01049610453117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent prosperity of text-to-image diffusion models, e.g. Stable Diffusion, has stimulated research to adapt them to 360-degree panorama generation. Prior work has demonstrated the feasibility of using conventional low-rank adaptation techniques on pre-trained diffusion models to generate panoramic images. However, the substantial domain gap between perspective and panoramic images raises questions about the underlying mechanisms enabling this empirical success. We hypothesize and examine that the trainable counterparts exhibit distinct behaviors when fine-tuned on panoramic data, and such an adaptation conceals some intrinsic mechanism to leverage the prior knowledge within the pre-trained diffusion models. Our analysis reveals the following: 1) the query and key matrices in the attention modules are responsible for common information that can be shared between the panoramic and perspective domains, thus are less relevant to panorama generation; and 2) the value and output weight matrices specialize in adapting pre-trained knowledge to the panoramic domain, playing a more critical role during fine-tuning for panorama generation. We empirically verify these insights by introducing a simple framework called UniPano, with the objective of establishing an elegant baseline for future research. UniPano not only outperforms existing methods but also significantly reduces memory usage and training time compared to prior dual-branch approaches, making it scalable for end-to-end panorama generation with higher resolution. The code will be released.
- Abstract(参考訳): 近年のテキストと画像の拡散モデル、例えば安定拡散は、それを360度パノラマ生成に適応させる研究を刺激している。
従来の低ランク適応手法を事前学習拡散モデルに応用してパノラマ画像を生成する可能性を実証した。
しかし、視点とパノラマ画像の間の領域ギャップは、この経験的成功の基盤となるメカニズムに関する疑問を提起する。
本研究では,パノラマデータに微調整を施すと,学習者が異なる行動を示すという仮説と考察を行い,事前学習した拡散モデルにおける事前知識を生かした本質的なメカニズムを隠蔽する。
分析の結果,以下のことが判明した。
1)注目モジュール内の問合せ及びキー行列は、パノラマ領域とパースペクティブ領域の間で共有できる共通情報に責任を負うので、パノラマ生成にはあまり関係がない。
2) トレーニング済み知識をパノラマ領域に適応させ, パノラマ発生のための微調整においてより重要な役割を担っている。
今後の研究のためのエレガントなベースラインを確立することを目的として,UniPanoと呼ばれるシンプルなフレームワークを導入することで,これらの知見を実証的に検証する。
UniPanoは既存のメソッドよりも優れているだけでなく、以前のデュアルブランチアプローチに比べてメモリ使用量やトレーニング時間を大幅に削減し、高解像度でエンドツーエンドのパノラマ生成にスケーラブルである。
コードはリリースされます。
関連論文リスト
- 360SFUDA++: Towards Source-free UDA for Panoramic Segmentation by Learning Reliable Category Prototypes [15.367186190755003]
ピンホール-パノラマセマンティックセマンティックセマンティックセグメンテーションのための難解なソースフリーな教師なしドメイン適応(SFUDA)について検討する。
360SFUDA++は、未ラベルのパノラマ画像のみを用いて、ソースピンホールモデルから知識を効果的に抽出する。
論文 参考訳(メタデータ) (2024-04-25T10:52:08Z) - Taming Stable Diffusion for Text to 360° Panorama Image Generation [74.69314801406763]
そこで本研究では,テキストプロンプトから360度画像を生成するためにPanFusionという2分岐拡散モデルを提案する。
本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:46:14Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。
我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文 参考訳(メタデータ) (2024-02-02T12:39:49Z) - Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for
Mobile Agents via Unsupervised Contrastive Learning [93.6645991946674]
我々はパノラマパノラマパノプティクスのセグメンテーションを最も総合的なシーン理解として紹介する。
完全な周囲の理解は、移動エージェントに最大限の情報を提供する。
本稿では,標準的なピンホール画像のモデルトレーニングを可能にし,学習した特徴を別のドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:07:15Z) - Unsupervised Cycle-consistent Generative Adversarial Networks for
Pan-sharpening [41.68141846006704]
本稿では,この問題を緩和するために,基礎的な真理を伴わずに,フルスケールの画像から学習する,教師なしの生成的敵対的枠組みを提案する。
PANおよびMS画像から2ストリーム生成器を用いてモダリティ特異的特徴を抽出し,特徴領域での融合を行い,パンシャープ画像の再構成を行う。
提案手法は,フルスケール画像のパンシャーピング性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-09-20T09:43:24Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。