論文の概要: Multi-Architecture Multi-Expert Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.04990v1
- Date: Thu, 8 Jun 2023 07:24:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 15:55:42.930361
- Title: Multi-Architecture Multi-Expert Diffusion Models
- Title(参考訳): マルチアーキテクチャマルチエキスパート拡散モデル
- Authors: Yunsung Lee, Jin-Young Kim, Hyojun Go, Myeongho Jeong, Shinhyeok Oh,
Seungtaek Choi
- Abstract要約: 我々は、Multi-architecturE Multi-Expert (MEME)と呼ばれる新しいアプローチを提案する。
MEMEは、各段階の間隔で必要とされる操作に合わせて、専門的なアーキテクチャを持つ複数の専門家で構成されている。
生成性能と計算効率の両面でMEMEが大きな競争相手を上回ることを実証する。
- 参考スコア(独自算出の注目度): 13.333486537801743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved impressive results in generating diverse and
realistic data by employing multi-step denoising processes. However, the need
for accommodating significant variations in input noise at each time-step has
led to diffusion models requiring a large number of parameters for their
denoisers. We have observed that diffusion models effectively act as filters
for different frequency ranges at each time-step noise. While some previous
works have introduced multi-expert strategies, assigning denoisers to different
noise intervals, they overlook the importance of specialized operations for
high and low frequencies. For instance, self-attention operations are effective
at handling low-frequency components (low-pass filters), while convolutions
excel at capturing high-frequency features (high-pass filters). In other words,
existing diffusion models employ denoisers with the same architecture, without
considering the optimal operations for each time-step noise. To address this
limitation, we propose a novel approach called Multi-architecturE Multi-Expert
(MEME), which consists of multiple experts with specialized architectures
tailored to the operations required at each time-step interval. Through
extensive experiments, we demonstrate that MEME outperforms large competitors
in terms of both generation performance and computational efficiency.
- Abstract(参考訳): 拡散モデルは多段階の分別処理を駆使して多様で現実的なデータを生成するという素晴らしい成果を上げている。
しかしながら、各時間ステップで入力ノイズの大幅な変動を適応させる必要性から、拡散モデルでは多くのパラメータをデノイザに要求している。
拡散モデルが各時間ステップノイズの周波数範囲の異なるフィルタとして効果的に働くことを観察した。
以前のいくつかの研究では、ノイズ間隔にノイズを割り当てるマルチエキスパート戦略が導入されたが、高頻度と低周波の特殊な操作の重要性を見落としている。
例えば、自己アテンション操作は低周波成分(低周波フィルタ)を扱うのに効果的であり、畳み込みは高周波特性(高域通過フィルタ)を捉えるのに優れている。
言い換えれば、既存の拡散モデルは、各時間ステップノイズに対する最適操作を考慮せずに、同じアーキテクチャのデノイザを用いる。
この制限に対処するため,我々は,各段階ごとに要求される操作に合わせて,専門的なアーキテクチャを持つ複数の専門家からなる,Multi-architecturE Multi-Expert (MEME) という新しいアプローチを提案する。
大規模な実験により、MEMEは、生成性能と計算効率の両方において、大きな競争相手よりも優れていることを示した。
関連論文リスト
- MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration [7.087475633143941]
MM-Diffはチューニング不要な画像パーソナライズフレームワークで、単写体と複数体の高忠実度画像を数秒で生成できる。
MM-Diff は視覚エンコーダを用いて入力画像を CLS に変換し、埋め込みをパッチする。
一方、CLS埋め込みはテキスト埋め込みを強化するために使用され、一方、パッチ埋め込みと共に、少数の詳細に富んだ主題埋め込みを導出する。
論文 参考訳(メタデータ) (2024-03-22T09:32:31Z) - A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文 参考訳(メタデータ) (2024-01-11T15:13:31Z) - Improving Efficiency of Diffusion Models via Multi-Stage Framework and
Tailored Multi-Decoder Architectures [13.4613041236933]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。
本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T17:48:09Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - AutoDiffusion: Training-Free Optimization of Time Steps and
Architectures for Automated Diffusion Model Acceleration [57.846038404893626]
本稿では,拡散モデルに対する効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索することを提案する。
実験結果から,ImageNet 64$times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いると,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-19T08:57:24Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Multi-scale Attention Flow for Probabilistic Time Series Forecasting [68.20798558048678]
マルチスケールアテンション正規化フロー(MANF)と呼ばれる非自己回帰型ディープラーニングモデルを提案する。
我々のモデルは累積誤差の影響を回避し、時間の複雑さを増大させない。
本モデルは,多くの多変量データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-16T07:53:42Z) - Unified Modeling of Multi-Domain Multi-Device ASR Systems [13.61897259469694]
デバイス毎に異なるドメインモデルを統一モデルに統合する革新的なアプローチを提案する。
実験により,提案手法はドメイン毎に慎重に調整されたモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-13T14:07:22Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。