論文の概要: Exploring Position Encoding in Diffusion U-Net for Training-free High-resolution Image Generation
- arxiv url: http://arxiv.org/abs/2503.09830v1
- Date: Wed, 12 Mar 2025 20:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:16.917333
- Title: Exploring Position Encoding in Diffusion U-Net for Training-free High-resolution Image Generation
- Title(参考訳): 訓練不要高解像度画像生成のための拡散U-Netにおける位置符号化の探索
- Authors: Feng Zhou, Pu Cao, Yiyang Ma, Lu Yang, Jianqin Yin,
- Abstract要約: 事前トレーニングされたU-Netを介して高分解能潜伏剤をノイズ化すると、反復的および乱れたイメージパターンが生じる。
本稿では,プログレッシブ・バウンダリ・コンプリメント (PBC) 法を導入し,新しい学習自由な手法を提案する。
本手法は,特徴マップ内の動的仮想画像境界を作成し,位置情報の伝搬を向上させる。
- 参考スコア(独自算出の注目度): 12.46680249926721
- License:
- Abstract: Denoising higher-resolution latents via a pre-trained U-Net leads to repetitive and disordered image patterns. Although recent studies make efforts to improve generative quality by aligning denoising process across original and higher resolutions, the root cause of suboptimal generation is still lacking exploration. Through comprehensive analysis of position encoding in U-Net, we attribute it to inconsistent position encoding, sourced by the inadequate propagation of position information from zero-padding to latent features in convolution layers as resolution increases. To address this issue, we propose a novel training-free approach, introducing a Progressive Boundary Complement (PBC) method. This method creates dynamic virtual image boundaries inside the feature map to enhance position information propagation, enabling high-quality and rich-content high-resolution image synthesis. Extensive experiments demonstrate the superiority of our method.
- Abstract(参考訳): 事前トレーニングされたU-Netを介して高分解能潜伏剤をノイズ化すると、反復的および乱れたイメージパターンが生じる。
近年の研究では、分解過程を原解像度と高解像度で整列させることにより、生成品質を向上させる努力を行っているが、最適下地発生の根本原因はいまだ探究の欠如である。
U-Netにおける位置符号化の包括的解析を通じて、解像度が増大するにつれて、畳み込み層におけるゼロパディングから潜在特徴への位置情報の伝播が不十分であるために、不整合位置符号化が引き起こされる。
この問題に対処するために,プログレッシブ・バウンダリ・コンプリメント(PBC)法を導入し,新たなトレーニングフリーな手法を提案する。
本手法は,特徴マップ内の動的仮想画像境界を作成し,位置情報の伝搬を向上し,高品質で高解像度な高解像度画像合成を可能にする。
大規模な実験により,本手法の優位性を実証した。
関連論文リスト
- HIIF: Hierarchical Encoding based Implicit Image Function for Continuous Super-resolution [16.652558917081954]
連続画像超解像のためのtextbfHIIF を提案する。
提案手法では,非局所的な情報を考慮した多頭部線形注意機構を暗黙の注意ネットワーク内に組み込む。
実験により、異なるバックボーンエンコーダと統合した場合、HIIFはPSNRの0.17dBまで、最先端の連続画像超解像法より優れることがわかった。
論文 参考訳(メタデータ) (2024-12-04T22:35:20Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。
従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。
提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:33Z) - High Perceptual Quality Wireless Image Delivery with Denoising Diffusion
Models [10.763194436114194]
深層学習を用いたジョイントソースチャネル符号化(DeepJSCC)によるノイズの多い無線チャネル上の画像伝送問題について検討する。
対象画像のレンジ・ヌル空間分解を利用した新しい手法を提案する。
再建画像の歪みと知覚的品質は,標準的なDeepJSCCや最先端の生成学習法と比較して有意に向上した。
論文 参考訳(メタデータ) (2023-09-27T16:30:59Z) - Soft-IntroVAE for Continuous Latent space Image Super-Resolution [12.344557879284219]
連続潜時空間画像超解像(SVAE-SR)のためのソフトイントロVAEを提案する。
変分オートエンコーダにインスパイアされた連続潜時空間画像超解像(SVAE-SR)のためのソフトイントロVAEを提案する。
論文 参考訳(メタデータ) (2023-07-18T06:54:42Z) - Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image
Denoising [50.039949798156826]
本稿では,ハイパースペクトル(HS)画像の難解化問題に対処する。
ランク付き低次元畳み込み集合(Re-ConvSet)を提案する。
次に、Re-ConvSetを広く使われているU-Netアーキテクチャに組み込んで、HS画像復号法を構築する。
論文 参考訳(メタデータ) (2022-07-09T13:35:12Z) - Image Harmonization with Region-wise Contrastive Learning [51.309905690367835]
本稿では,外部スタイルの融合と領域単位のコントラスト学習方式を備えた新しい画像調和フレームワークを提案する。
提案手法は, 前景と背景の相互情報を最大化することにより, 対応する正と負のサンプルをまとめることを試みる。
論文 参考訳(メタデータ) (2022-05-27T15:46:55Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - SDWNet: A Straight Dilated Network with Wavelet Transformation for Image
Deblurring [23.86692375792203]
画像劣化は、ぼやけた画像から鋭い画像を復元することを目的としたコンピュータビジョンの問題である。
我々のモデルは拡張畳み込みを用いて空間分解能の高い大きな受容場を得ることができる。
本稿では,ウェーブレット変換を用いた新しいモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-12T07:58:10Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。