論文の概要: Multi-Scale Diffusion: Enhancing Spatial Layout in High-Resolution Panoramic Image Generation
- arxiv url: http://arxiv.org/abs/2410.18830v1
- Date: Thu, 24 Oct 2024 15:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:49:56.688153
- Title: Multi-Scale Diffusion: Enhancing Spatial Layout in High-Resolution Panoramic Image Generation
- Title(参考訳): マルチスケール拡散:高分解能パノラマ画像生成における空間レイアウトの強化
- Authors: Xiaoyu Zhang, Teng Zhou, Xinlong Zhang, Jia Wei, Yongchuan Tang,
- Abstract要約: 既存のパノラマ画像生成フレームワークを複数の解像度レベルまで拡張するプラグイン・アンド・プレイモジュールであるMulti-Scale Diffusion(MSD)フレームワークを紹介した。
勾配降下法を利用して,低分解能画像の構造情報を高分解能出力に効果的に組み込む。
- 参考スコア(独自算出の注目度): 12.588962705218103
- License:
- Abstract: Diffusion models have recently gained recognition for generating diverse and high-quality content, especially in the domain of image synthesis. These models excel not only in creating fixed-size images but also in producing panoramic images. However, existing methods often struggle with spatial layout consistency when producing high-resolution panoramas, due to the lack of guidance of the global image layout. In this paper, we introduce the Multi-Scale Diffusion (MSD) framework, a plug-and-play module that extends the existing panoramic image generation framework to multiple resolution levels. By utilizing gradient descent techniques, our method effectively incorporates structural information from low-resolution images into high-resolution outputs. A comprehensive evaluation of the proposed method was conducted, comparing it with the prior works in qualitative and quantitative dimensions. The evaluation results demonstrate that our method significantly outperforms others in generating coherent high-resolution panoramas.
- Abstract(参考訳): 拡散モデルは、特に画像合成の領域において、多種多様な高品質なコンテンツを生成することで認識されている。
これらのモデルは、固定サイズ画像の作成だけでなく、パノラマ画像の作成にも優れている。
しかし、既存の手法は、大域的な画像レイアウトのガイダンスが欠如しているため、高解像度パノラマを生成する際に空間的レイアウトの整合性に苦慮することが多い。
本稿では,既存のパノラマ画像生成フレームワークを複数の解像度レベルまで拡張するプラグイン・アンド・プレイモジュールであるMulti-Scale Diffusion(MSD)フレームワークを紹介する。
勾配降下法を利用して,低分解能画像の構造情報を高分解能出力に効果的に組み込む。
提案手法の総合評価を行い, 定性的, 定量的な先行研究と比較した。
その結果,本手法はコヒーレント高分解能パノラマ生成において,他者よりも有意に優れていた。
関連論文リスト
- Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening [2.874893537471256]
展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。
本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。
PRISMA、Quickbird、WorldView2データセットの実験結果から、本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-09-04T13:05:00Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Generative Powers of Ten [60.6740997942711]
本稿では,複数の画像スケールにまたがる一貫したコンテンツを生成するために,テキスト・ツー・イメージ・モデルを用いる手法を提案する。
マルチスケール拡散サンプリングを共同で行うことで実現した。
本手法は従来の超解像法よりも深いズームレベルを実現する。
論文 参考訳(メタデータ) (2023-12-04T18:59:25Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - HORIZON: High-Resolution Semantically Controlled Panorama Synthesis [105.55531244750019]
パノラマ合成は、仮想世界の中心にユーザーを没入させ、360度の視覚的な風景を再現する。
視覚合成の最近の進歩は、2次元平面画像における意味制御の可能性を解き放ったが、これらの手法のパノラマ合成への直接的応用は歪んだ内容を生み出す。
我々は,高分解能パノラマを生成するための革新的な枠組みを公表し,洗練された球面モデリングによる球面歪みとエッジ不連続性の問題に着目した。
論文 参考訳(メタデータ) (2022-10-10T09:43:26Z) - Adaptive Single Image Deblurring [43.02281823557039]
本稿では,画像間の大きなぼやけた変化を扱うために,効率的な画素適応化と特徴注意設計を提案する。
また、性能を大幅に向上させる効果的なコンテンツ認識グローバルローカルフィルタリングモジュールを提案する。
論文 参考訳(メタデータ) (2022-01-01T10:10:19Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - A Generative Model for Hallucinating Diverse Versions of Super
Resolution Images [0.3222802562733786]
我々は、生成逆数モデルを用いて、同じ低解像度画像から異なる高解像度バージョンを得るという問題に取り組んでいる。
学習アプローチでは,高分解能画像の学習において,教師なしの保存と探索に高周波数を活用できる。
論文 参考訳(メタデータ) (2021-02-12T17:11:42Z) - Efficient texture-aware multi-GAN for image inpainting [5.33024001730262]
近年のGAN (Generative Adversarial Network) のインペイント手法は顕著に改善されている。
本稿では,性能とレンダリング効率の両方を改善するマルチGANアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-30T14:58:03Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。