論文の概要: Dynamic Importance in Diffusion U-Net for Enhanced Image Synthesis
- arxiv url: http://arxiv.org/abs/2504.03471v1
- Date: Fri, 04 Apr 2025 14:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:07.551931
- Title: Dynamic Importance in Diffusion U-Net for Enhanced Image Synthesis
- Title(参考訳): 画像合成における拡散U-Netの動的重要性
- Authors: Xi Wang, Ziqi He, Yang Zhou,
- Abstract要約: U-Net内のTransformerブロックの出力を再重み付けすることは、サンプリングプロセス中に信号対雑音比を改善する「フリーランチ」である。
そこで本稿では,トランスフォーマーブロックの重要性の動的シフトを明らかにし,定量化するためのImportance Probeを提案する。
我々は、特定の画像生成および編集タスクに適した適応的重要度に基づく再重み付けスケジュールを設計する。
- 参考スコア(独自算出の注目度): 6.936881967905684
- License:
- Abstract: Traditional diffusion models typically employ a U-Net architecture. Previous studies have unveiled the roles of attention blocks in the U-Net. However, they overlook the dynamic evolution of their importance during the inference process, which hinders their further exploitation to improve image applications. In this study, we first theoretically proved that, re-weighting the outputs of the Transformer blocks within the U-Net is a "free lunch" for improving the signal-to-noise ratio during the sampling process. Next, we proposed Importance Probe to uncover and quantify the dynamic shifts in importance of the Transformer blocks throughout the denoising process. Finally, we design an adaptive importance-based re-weighting schedule tailored to specific image generation and editing tasks. Experimental results demonstrate that, our approach significantly improves the efficiency of the inference process, and enhances the aesthetic quality of the samples with identity consistency. Our method can be seamlessly integrated into any U-Net-based architecture. Code: https://github.com/Hytidel/UNetReweighting
- Abstract(参考訳): 従来の拡散モデルは一般にU-Netアーキテクチャを使用する。
従来の研究は、U-Netにおける注意ブロックの役割を明らかにしてきた。
しかし、彼らは推論過程における重要性のダイナミックな進化を見落とし、画像アプリケーションを改善するためにさらなる活用を妨げる。
本研究では、まず、U-Net内のトランスフォーマーブロックの出力を再重み付けすることは、サンプリング過程における信号-雑音比を改善するための「フリーランチ」であることを理論的に証明した。
次に,提案するImportance Probeにより,デノナイジングプロセスを通じてトランスフォーマーブロックの重要性の動的変化を解明し,定量化する。
最後に、特定の画像生成および編集タスクに適した適応的重要度に基づく再重み付けスケジュールを設計する。
実験結果から,本手法は推論プロセスの効率を著しく向上し,識別整合性を有する試料の審美性を向上することが示された。
我々の手法は任意のU-Netアーキテクチャにシームレスに統合できる。
コード:https://github.com/Hytidel/UNetReweighting
関連論文リスト
- WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。
近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。
本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文 参考訳(メタデータ) (2024-07-18T11:51:01Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - RePo: Resilient Model-Based Reinforcement Learning by Regularizing
Posterior Predictability [25.943330238941602]
本稿では,視覚モデルに基づくRL法を提案する。
我々の訓練目的は、表現が力学と報酬を最大限に予測することを奨励する。
我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。
論文 参考訳(メタデータ) (2023-08-31T18:43:04Z) - Deep Multi-Threshold Spiking-UNet for Image Processing [51.88730892920031]
本稿では,SNN(Spike Neural Networks)とU-Netアーキテクチャを組み合わせた,画像処理のためのスパイキング-UNetの概念を紹介する。
効率的なスパイキング-UNetを実現するためには,スパイクによる高忠実度情報伝播の確保と,効果的なトレーニング戦略の策定という2つの課題に直面する。
実験の結果,画像のセグメンテーションとデノイングにおいて,スパイキングUNetは非スパイキングと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-07-20T16:00:19Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - SUMD: Super U-shaped Matrix Decomposition Convolutional neural network
for Image denoising [0.0]
ネットワークに行列分解モジュール(MD)を導入し,グローバルなコンテキスト機能を確立する。
U字型アーキテクチャの多段階的プログレッシブ復元の設計に触発されて,MDモジュールをマルチブランチに統合する。
我々のモデル(SUMD)は、Transformerベースの手法で、同等の視覚的品質と精度が得られる。
論文 参考訳(メタデータ) (2022-04-11T04:38:34Z) - GridDehazeNet+: An Enhanced Multi-Scale Network with Intra-Task
Knowledge Transfer for Single Image Dehazing [12.982905875008214]
GridDehazeNet+と呼ばれる強化されたマルチスケールネットワークを提案します。
プリプロセス、バックボーン、後処理の3つのモジュールで構成されている。
論文 参考訳(メタデータ) (2021-03-25T17:35:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。