Fugu-MT 論文翻訳(概要): Multi-Scale Diffusion: Enhancing Spatial Layout in High-Resolution Panoramic Image Generation

論文の概要: Multi-Scale Diffusion: Enhancing Spatial Layout in High-Resolution Panoramic Image Generation

arxiv url: http://arxiv.org/abs/2410.18830v2
Date: Sun, 06 Apr 2025 16:44:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-08 20:14:38.65306
Title: Multi-Scale Diffusion: Enhancing Spatial Layout in High-Resolution Panoramic Image Generation
Title（参考訳）: マルチスケール拡散:高分解能パノラマ画像生成における空間レイアウトの強化
Authors: Xiaoyu Zhang, Teng Zhou, Xinlong Zhang, Jia Wei, Yongchuan Tang,
Abstract要約: 本稿では,パノラマ画像生成フレームワークを複数の解像度レベルまで拡張する最適化フレームワークであるMulti-Scale Diffusion(MSD)を紹介する。本手法は勾配降下法を利用して低解像度画像の構造情報を高解像度出力に組み込む。
参考スコア（独自算出の注目度）: 12.588962705218103
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have recently gained recognition for generating diverse and high-quality content, especially in image synthesis. These models excel not only in creating fixed-size images but also in producing panoramic images. However, existing methods often struggle with spatial layout consistency when producing high-resolution panoramas due to the lack of guidance on the global image layout. This paper introduces the Multi-Scale Diffusion (MSD), an optimized framework that extends the panoramic image generation framework to multiple resolution levels. Our method leverages gradient descent techniques to incorporate structural information from low-resolution images into high-resolution outputs. Through comprehensive qualitative and quantitative evaluations against prior work, we demonstrate that our approach significantly improves the coherence of high-resolution panorama generation.
Abstract（参考訳）: 拡散モデルは、特に画像合成において、多彩で高品質なコンテンツを生成することで認識されている。これらのモデルは、固定サイズ画像の作成だけでなく、パノラマ画像の作成にも優れている。しかし、既存の手法では、グローバルな画像レイアウトのガイダンスが不足しているため、高解像度のパノラマを生成する際に、空間的レイアウトの整合性に苦慮することが多い。本稿では,パノラマ画像生成フレームワークを複数の解像度レベルまで拡張する最適化フレームワークであるMulti-Scale Diffusion(MSD)を紹介する。本手法は勾配降下法を利用して低解像度画像の構造情報を高解像度出力に組み込む。従来の作業に対する総合的な質的,定量的な評価を通じて,本手法が高分解能パノラマ生成のコヒーレンスを著しく向上させることを示す。

関連論文リスト

Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。 Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文参考訳（メタデータ） (2025-05-08T17:58:57Z)
Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。 Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。 SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文参考訳（メタデータ） (2025-01-24T06:42:06Z)
Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening [2.874893537471256]
展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。 PRISMA、Quickbird、WorldView2データセットの実験結果から、本手法の優れた性能が示された。
論文参考訳（メタデータ） (2024-09-04T13:05:00Z)
Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文参考訳（メタデータ） (2024-07-10T19:58:04Z)
UltraPixel: Advancing Ultra-High-Resolution Image Synthesis to New Peaks [36.61645124563195]
カスケード拡散モデルを用いて高画質画像を複数解像度で生成する新しいアーキテクチャであるUltraPixelを提案する。後半の認知段階における低分解能画像のセマンティクスに富んだ表現を用いて、高精細高分解能画像の全生成を導く。我々のモデルは、データ要求を減らして高速なトレーニングを行い、フォトリアリスティックな高解像度画像を生成する。
論文参考訳（メタデータ） (2024-07-02T11:02:19Z)
ResMaster: Mastering High-Resolution Image Generation via Structural and Fine-Grained Guidance [46.64836025290448]
ResMasterは、解像度制限を超えて高品質な画像を生成するために、解像度制限付き拡散モデルに権限を与える、トレーニング不要の方法である。パッチ・バイ・パッチで高解像度画像を作成するための構造的かつきめ細かいガイダンスを提供する。実験では、ResMasterが高解像度画像生成のための新しいベンチマークを設定し、有望な効率を示す。
論文参考訳（メタデータ） (2024-06-24T09:28:21Z)
FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文参考訳（メタデータ） (2024-03-19T17:59:33Z)
Generative Powers of Ten [60.6740997942711]
本稿では,複数の画像スケールにまたがる一貫したコンテンツを生成するために,テキスト・ツー・イメージ・モデルを用いる手法を提案する。マルチスケール拡散サンプリングを共同で行うことで実現した。本手法は従来の超解像法よりも深いズームレベルを実現する。
論文参考訳（メタデータ） (2023-12-04T18:59:25Z)
Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文参考訳（メタデータ） (2023-11-30T10:36:19Z)
HORIZON: High-Resolution Semantically Controlled Panorama Synthesis [105.55531244750019]
パノラマ合成は、仮想世界の中心にユーザーを没入させ、360度の視覚的な風景を再現する。視覚合成の最近の進歩は、2次元平面画像における意味制御の可能性を解き放ったが、これらの手法のパノラマ合成への直接的応用は歪んだ内容を生み出す。我々は,高分解能パノラマを生成するための革新的な枠組みを公表し,洗練された球面モデリングによる球面歪みとエッジ不連続性の問題に着目した。
論文参考訳（メタデータ） (2022-10-10T09:43:26Z)
Adaptive Single Image Deblurring [43.02281823557039]
本稿では,画像間の大きなぼやけた変化を扱うために,効率的な画素適応化と特徴注意設計を提案する。また、性能を大幅に向上させる効果的なコンテンツ認識グローバルローカルフィルタリングモジュールを提案する。
論文参考訳（メタデータ） (2022-01-01T10:10:19Z)
InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文参考訳（メタデータ） (2021-04-08T17:59:30Z)
A Generative Model for Hallucinating Diverse Versions of Super Resolution Images [0.3222802562733786]
我々は、生成逆数モデルを用いて、同じ低解像度画像から異なる高解像度バージョンを得るという問題に取り組んでいる。学習アプローチでは,高分解能画像の学習において,教師なしの保存と探索に高周波数を活用できる。
論文参考訳（メタデータ） (2021-02-12T17:11:42Z)
Efficient texture-aware multi-GAN for image inpainting [5.33024001730262]
近年のGAN (Generative Adversarial Network) のインペイント手法は顕著に改善されている。本稿では,性能とレンダリング効率の両方を改善するマルチGANアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-09-30T14:58:03Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。