論文の概要: Dynamic Importance in Diffusion U-Net for Enhanced Image Synthesis
- arxiv url: http://arxiv.org/abs/2504.03471v1
- Date: Fri, 04 Apr 2025 14:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 16:45:22.025937
- Title: Dynamic Importance in Diffusion U-Net for Enhanced Image Synthesis
- Title(参考訳): 画像合成における拡散U-Netの動的重要性
- Authors: Xi Wang, Ziqi He, Yang Zhou,
- Abstract要約: U-Net内のTransformerブロックの出力を再重み付けすることは、サンプリングプロセス中に信号対雑音比を改善する「フリーランチ」である。
そこで本稿では,トランスフォーマーブロックの重要性の動的シフトを明らかにし,定量化するためのImportance Probeを提案する。
我々は、特定の画像生成および編集タスクに適した適応的重要度に基づく再重み付けスケジュールを設計する。
- 参考スコア(独自算出の注目度): 6.936881967905684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional diffusion models typically employ a U-Net architecture. Previous studies have unveiled the roles of attention blocks in the U-Net. However, they overlook the dynamic evolution of their importance during the inference process, which hinders their further exploitation to improve image applications. In this study, we first theoretically proved that, re-weighting the outputs of the Transformer blocks within the U-Net is a "free lunch" for improving the signal-to-noise ratio during the sampling process. Next, we proposed Importance Probe to uncover and quantify the dynamic shifts in importance of the Transformer blocks throughout the denoising process. Finally, we design an adaptive importance-based re-weighting schedule tailored to specific image generation and editing tasks. Experimental results demonstrate that, our approach significantly improves the efficiency of the inference process, and enhances the aesthetic quality of the samples with identity consistency. Our method can be seamlessly integrated into any U-Net-based architecture. Code: https://github.com/Hytidel/UNetReweighting
- Abstract(参考訳): 従来の拡散モデルは一般にU-Netアーキテクチャを使用する。
従来の研究は、U-Netにおける注意ブロックの役割を明らかにしてきた。
しかし、彼らは推論過程における重要性のダイナミックな進化を見落とし、画像アプリケーションを改善するためにさらなる活用を妨げる。
本研究では、まず、U-Net内のトランスフォーマーブロックの出力を再重み付けすることは、サンプリング過程における信号-雑音比を改善するための「フリーランチ」であることを理論的に証明した。
次に,提案するImportance Probeにより,デノナイジングプロセスを通じてトランスフォーマーブロックの重要性の動的変化を解明し,定量化する。
最後に、特定の画像生成および編集タスクに適した適応的重要度に基づく再重み付けスケジュールを設計する。
実験結果から,本手法は推論プロセスの効率を著しく向上し,識別整合性を有する試料の審美性を向上することが示された。
我々の手法は任意のU-Netアーキテクチャにシームレスに統合できる。
コード:https://github.com/Hytidel/UNetReweighting
関連論文リスト
- Exploring Kernel Transformations for Implicit Neural Representations [57.2225355625268]
入射神経表現(INR)は、ニューラルネットワークを利用して、対応する属性に座標をマッピングすることで、信号を表現する。
この研究は、モデル自体を変更せずに入出力のカーネル変換の効果を探求する先駆者となった。
我々の発見の副産物は、スケールとシフトを組み合わせて、INRを無視できないオーバーヘッドで著しく向上させる、単純で効果的な方法である。
論文 参考訳(メタデータ) (2025-04-07T04:43:50Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - SUMD: Super U-shaped Matrix Decomposition Convolutional neural network
for Image denoising [0.0]
ネットワークに行列分解モジュール(MD)を導入し,グローバルなコンテキスト機能を確立する。
U字型アーキテクチャの多段階的プログレッシブ復元の設計に触発されて,MDモジュールをマルチブランチに統合する。
我々のモデル(SUMD)は、Transformerベースの手法で、同等の視覚的品質と精度が得られる。
論文 参考訳(メタデータ) (2022-04-11T04:38:34Z) - GridDehazeNet+: An Enhanced Multi-Scale Network with Intra-Task
Knowledge Transfer for Single Image Dehazing [12.982905875008214]
GridDehazeNet+と呼ばれる強化されたマルチスケールネットワークを提案します。
プリプロセス、バックボーン、後処理の3つのモジュールで構成されている。
論文 参考訳(メタデータ) (2021-03-25T17:35:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。