論文の概要: Multi-Scale Diffusion: Enhancing Spatial Layout in High-Resolution Panoramic Image Generation
- arxiv url: http://arxiv.org/abs/2410.18830v2
- Date: Sun, 06 Apr 2025 16:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 17:33:35.623180
- Title: Multi-Scale Diffusion: Enhancing Spatial Layout in High-Resolution Panoramic Image Generation
- Title(参考訳): マルチスケール拡散:高分解能パノラマ画像生成における空間レイアウトの強化
- Authors: Xiaoyu Zhang, Teng Zhou, Xinlong Zhang, Jia Wei, Yongchuan Tang,
- Abstract要約: 本稿では,パノラマ画像生成フレームワークを複数の解像度レベルまで拡張する最適化フレームワークであるMulti-Scale Diffusion(MSD)を紹介する。
本手法は勾配降下法を利用して低解像度画像の構造情報を高解像度出力に組み込む。
- 参考スコア(独自算出の注目度): 12.588962705218103
- License:
- Abstract: Diffusion models have recently gained recognition for generating diverse and high-quality content, especially in image synthesis. These models excel not only in creating fixed-size images but also in producing panoramic images. However, existing methods often struggle with spatial layout consistency when producing high-resolution panoramas due to the lack of guidance on the global image layout. This paper introduces the Multi-Scale Diffusion (MSD), an optimized framework that extends the panoramic image generation framework to multiple resolution levels. Our method leverages gradient descent techniques to incorporate structural information from low-resolution images into high-resolution outputs. Through comprehensive qualitative and quantitative evaluations against prior work, we demonstrate that our approach significantly improves the coherence of high-resolution panorama generation.
- Abstract(参考訳): 拡散モデルは、特に画像合成において、多彩で高品質なコンテンツを生成することで認識されている。
これらのモデルは、固定サイズ画像の作成だけでなく、パノラマ画像の作成にも優れている。
しかし、既存の手法では、グローバルな画像レイアウトのガイダンスが不足しているため、高解像度のパノラマを生成する際に、空間的レイアウトの整合性に苦慮することが多い。
本稿では,パノラマ画像生成フレームワークを複数の解像度レベルまで拡張する最適化フレームワークであるMulti-Scale Diffusion(MSD)を紹介する。
本手法は勾配降下法を利用して低解像度画像の構造情報を高解像度出力に組み込む。
従来の作業に対する総合的な質的,定量的な評価を通じて,本手法が高分解能パノラマ生成のコヒーレンスを著しく向上させることを示す。
関連論文リスト
- Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。
Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。
SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-01-24T06:42:06Z) - Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening [2.874893537471256]
展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。
本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。
PRISMA、Quickbird、WorldView2データセットの実験結果から、本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-09-04T13:05:00Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Generative Powers of Ten [60.6740997942711]
本稿では,複数の画像スケールにまたがる一貫したコンテンツを生成するために,テキスト・ツー・イメージ・モデルを用いる手法を提案する。
マルチスケール拡散サンプリングを共同で行うことで実現した。
本手法は従来の超解像法よりも深いズームレベルを実現する。
論文 参考訳(メタデータ) (2023-12-04T18:59:25Z) - HORIZON: High-Resolution Semantically Controlled Panorama Synthesis [105.55531244750019]
パノラマ合成は、仮想世界の中心にユーザーを没入させ、360度の視覚的な風景を再現する。
視覚合成の最近の進歩は、2次元平面画像における意味制御の可能性を解き放ったが、これらの手法のパノラマ合成への直接的応用は歪んだ内容を生み出す。
我々は,高分解能パノラマを生成するための革新的な枠組みを公表し,洗練された球面モデリングによる球面歪みとエッジ不連続性の問題に着目した。
論文 参考訳(メタデータ) (2022-10-10T09:43:26Z) - Adaptive Single Image Deblurring [43.02281823557039]
本稿では,画像間の大きなぼやけた変化を扱うために,効率的な画素適応化と特徴注意設計を提案する。
また、性能を大幅に向上させる効果的なコンテンツ認識グローバルローカルフィルタリングモジュールを提案する。
論文 参考訳(メタデータ) (2022-01-01T10:10:19Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - A Generative Model for Hallucinating Diverse Versions of Super
Resolution Images [0.3222802562733786]
我々は、生成逆数モデルを用いて、同じ低解像度画像から異なる高解像度バージョンを得るという問題に取り組んでいる。
学習アプローチでは,高分解能画像の学習において,教師なしの保存と探索に高周波数を活用できる。
論文 参考訳(メタデータ) (2021-02-12T17:11:42Z) - Efficient texture-aware multi-GAN for image inpainting [5.33024001730262]
近年のGAN (Generative Adversarial Network) のインペイント手法は顕著に改善されている。
本稿では,性能とレンダリング効率の両方を改善するマルチGANアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-30T14:58:03Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。