論文の概要: Ensembling Diffusion Models via Adaptive Feature Aggregation
- arxiv url: http://arxiv.org/abs/2405.17082v1
- Date: Mon, 27 May 2024 11:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 15:32:42.550329
- Title: Ensembling Diffusion Models via Adaptive Feature Aggregation
- Title(参考訳): 適応的特徴集合による拡散モデルの構築
- Authors: Cong Wang, Kuan Tian, Yonghang Guan, Jun Zhang, Zhiwei Jiang, Fei Shen, Xiao Han, Qing Gu, Wei Yang,
- Abstract要約: より強力な生成能力を生み出すために複数の高品質モデルを活用することは価値があるが、広く研究されていない。
既存のメソッドは主にパラメータマージ戦略を採用して、新しい静的モデルを生成する。
本稿では,様々な状態に応じて複数のモデルのコントリビューションを動的に調整するアダプティブ・フィーチャー・アグリゲーション(AFA)を提案する。
- 参考スコア(独自算出の注目度): 18.94941244857961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of the text-guided diffusion model has inspired the development and release of numerous powerful diffusion models within the open-source community. These models are typically fine-tuned on various expert datasets, showcasing diverse denoising capabilities. Leveraging multiple high-quality models to produce stronger generation ability is valuable, but has not been extensively studied. Existing methods primarily adopt parameter merging strategies to produce a new static model. However, they overlook the fact that the divergent denoising capabilities of the models may dynamically change across different states, such as when experiencing different prompts, initial noises, denoising steps, and spatial locations. In this paper, we propose a novel ensembling method, Adaptive Feature Aggregation (AFA), which dynamically adjusts the contributions of multiple models at the feature level according to various states (i.e., prompts, initial noises, denoising steps, and spatial locations), thereby keeping the advantages of multiple diffusion models, while suppressing their disadvantages. Specifically, we design a lightweight Spatial-Aware Block-Wise (SABW) feature aggregator that adaptive aggregates the block-wise intermediate features from multiple U-Net denoisers into a unified one. The core idea lies in dynamically producing an individual attention map for each model's features by comprehensively considering various states. It is worth noting that only SABW is trainable with about 50 million parameters, while other models are frozen. Both the quantitative and qualitative experiments demonstrate the effectiveness of our proposed Adaptive Feature Aggregation method. The code is available at https://github.com/tenvence/afa/.
- Abstract(参考訳): テキスト誘導拡散モデルの成功は、オープンソースコミュニティ内で多数の強力な拡散モデルの開発とリリースを刺激した。
これらのモデルは通常、さまざまな専門家データセットに基づいて微調整され、多様な認知能力を示す。
より強力な生成能力を生み出すために複数の高品質モデルを活用することは価値があるが、広く研究されていない。
既存のメソッドは主にパラメータマージ戦略を採用して、新しい静的モデルを生成する。
しかし彼らは、異なるプロンプト、初期ノイズ、デノナイジングステップ、空間的位置など、モデルの発散するデノナイジング能力が異なる状態にわたって動的に変化するという事実を見落としている。
本稿では,様々な状態(プロンプト,初期雑音,デノイングステップ,空間位置など)に応じて特徴レベルの複数のモデルの寄与を動的に調整し,複数の拡散モデルの利点を抑えながら,その不利益を抑える,新しいアンサンブル手法である適応的特徴集約(AFA)を提案する。
具体的には、複数のU-Netデノイザからブロックワイド中間機能を集約した軽量な空間認識ブロックワイズ(SABW)機能アグリゲータを設計する。
中心となる考え方は、様々な状態を包括的に検討することで、各モデルの特徴に対する個別の注意マップを動的に作成することにある。
注目すべきなのは、SABWだけが約5000万のパラメータでトレーニング可能であり、他のモデルは凍結されていることだ。
定量的および定性的な実験は,提案手法の有効性を実証するものである。
コードはhttps://github.com/tenvence/afa/で公開されている。
関連論文リスト
- Discrete Copula Diffusion [44.96934660818884]
離散拡散モデルがより少ないステップで強い性能を達成するのを防ぐ基本的な制限を同定する。
我々は,コプラモデルと呼ばれる別の深層生成モデルを導入することで,欠落した依存情報を補うための一般的なアプローチを提案する。
本手法は拡散モデルとコプラモデルの両方を微調整する必要はないが, 高い品質のサンプル生成が可能であり, 分解ステップが著しく少ない。
論文 参考訳(メタデータ) (2024-10-02T18:51:38Z) - Aggregation of Multi Diffusion Models for Enhancing Learned Representations [4.126721111013567]
本稿では, Aggregation of Multi Diffusion Models (AMDM) を提案する。
AMDMは、複数の拡散モデルから特定のモデルに特徴を合成し、学習された表現を拡張して、きめ細かい制御のために特定の特徴を活性化する。
実験の結果,AMDMはトレーニング時間や推論時間を必要とせず,微粒化制御を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-02T06:16:06Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Diffusion-Generative Multi-Fidelity Learning for Physical Simulation [24.723536390322582]
本研究では,微分方程式(SDE)に基づく拡散生成多忠実学習法を開発した。
付加的な入力(時間変数や空間変数)を条件にすることで、我々のモデルは効率的に多次元の解列を学習し、予測することができる。
論文 参考訳(メタデータ) (2023-11-09T18:59:05Z) - Multi-scale Diffusion Denoised Smoothing [79.95360025953931]
ランダムな平滑化は、大規模モデルに敵対的ロバスト性を提供する、いくつかの具体的なアプローチの1つになっている。
本報告では, 分割平滑化におけるロバスト性と精度との現在のトレードオフに対処するスケーラブルな手法を提案する。
提案手法と拡散微細調整を併用したマルチスケール平滑化手法により,高騒音レベルで高い信頼性のロバスト性が得られることを示す。
論文 参考訳(メタデータ) (2023-10-25T17:11:21Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Balanced Multimodal Learning via On-the-fly Gradient Modulation [10.5602074277814]
マルチモーダル学習は、異なる感覚を統合することで、世界を包括的に理解するのに役立つ。
学習目標に対する貢献の相違をモニタリングすることで,各モードの最適化を適応的に制御するオンザフライ勾配変調を提案する。
論文 参考訳(メタデータ) (2022-03-29T08:26:38Z) - Tackling the Generative Learning Trilemma with Denoising Diffusion GANs [20.969702008187838]
深層生成モデルは、しばしば高いサンプル品質、モードカバレッジ、高速サンプリングに同時に対処するのに苦労する。
既存のモデルでは、そのいくつかを他のモデルと交換することが多いので、私たちはこの課題を生成学習のトリレンマと呼んでいる。
マルチモーダル条件付きGANを用いて各デノナイジングステップをモデル化するデノナイジング拡散生成対向ネットワーク(デノナイジング拡散GAN)を導入する。
論文 参考訳(メタデータ) (2021-12-15T00:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。