論文の概要: Multi-Architecture Multi-Expert Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.04990v2
- Date: Wed, 27 Dec 2023 07:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 23:04:36.644237
- Title: Multi-Architecture Multi-Expert Diffusion Models
- Title(参考訳): マルチアーキテクチャマルチエキスパート拡散モデル
- Authors: Yunsung Lee, Jin-Young Kim, Hyojun Go, Myeongho Jeong, Shinhyeok Oh,
Seungtaek Choi
- Abstract要約: 我々は,Multi-architecturE Multi-Expertfusion Model (MEME)を紹介する。
MEMEはベースラインよりも3.3倍高速で、画像生成品質(FIDスコア)を0.62(FFHQ)と0.37(CelebA)改善している。
我々はMEMEが,大規模なマルチエキスパートモデルなど他のシナリオにも容易に適用可能な拡散モデルに対して,新たな設計選択を開放すると主張している。
- 参考スコア(独自算出の注目度): 18.463425624382115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we address the performance degradation of efficient diffusion
models by introducing Multi-architecturE Multi-Expert diffusion models (MEME).
We identify the need for tailored operations at different time-steps in
diffusion processes and leverage this insight to create compact yet
high-performing models. MEME assigns distinct architectures to different
time-step intervals, balancing convolution and self-attention operations based
on observed frequency characteristics. We also introduce a soft interval
assignment strategy for comprehensive training. Empirically, MEME operates 3.3
times faster than baselines while improving image generation quality (FID
scores) by 0.62 (FFHQ) and 0.37 (CelebA). Though we validate the effectiveness
of assigning more optimal architecture per time-step, where efficient models
outperform the larger models, we argue that MEME opens a new design choice for
diffusion models that can be easily applied in other scenarios, such as large
multi-expert models.
- Abstract(参考訳): 本稿では,Multi-architecturE Multi-Expertfusion Model (MEME)を導入することで,効率的な拡散モデルの性能劣化を解消する。
拡散過程の異なるタイミングで調整された操作の必要性を特定し、この知見を利用してコンパクトで高性能なモデルを作成する。
MEMEは異なる時間間隔に異なるアーキテクチャを割り当て、観測周波数特性に基づいて畳み込みと自己注意操作のバランスをとる。
包括的トレーニングのためのソフトインターバル割り当て戦略も導入する。
MEMEはベースラインよりも3.3倍高速で、画像生成品質(FIDスコア)を0.62(FFHQ)と0.37(CelebA)改善している。
より効率的なモデルがより大きなモデルより優れている時間ステップ毎に最適なアーキテクチャを割り当てることの有効性を検証するが、MEMEは大規模なマルチエキスパートモデルなど他のシナリオにも容易に適用可能な拡散モデルに対する新しい設計選択をオープンにしていると論じる。
関連論文リスト
- MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration [7.087475633143941]
MM-Diffはチューニング不要な画像パーソナライズフレームワークで、単写体と複数体の高忠実度画像を数秒で生成できる。
MM-Diff は視覚エンコーダを用いて入力画像を CLS に変換し、埋め込みをパッチする。
一方、CLS埋め込みはテキスト埋め込みを強化するために使用され、一方、パッチ埋め込みと共に、少数の詳細に富んだ主題埋め込みを導出する。
論文 参考訳(メタデータ) (2024-03-22T09:32:31Z) - A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文 参考訳(メタデータ) (2024-01-11T15:13:31Z) - Improving Efficiency of Diffusion Models via Multi-Stage Framework and
Tailored Multi-Decoder Architectures [13.4613041236933]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。
本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T17:48:09Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - AutoDiffusion: Training-Free Optimization of Time Steps and
Architectures for Automated Diffusion Model Acceleration [57.846038404893626]
本稿では,拡散モデルに対する効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索することを提案する。
実験結果から,ImageNet 64$times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いると,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-19T08:57:24Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Multi-scale Attention Flow for Probabilistic Time Series Forecasting [68.20798558048678]
マルチスケールアテンション正規化フロー(MANF)と呼ばれる非自己回帰型ディープラーニングモデルを提案する。
我々のモデルは累積誤差の影響を回避し、時間の複雑さを増大させない。
本モデルは,多くの多変量データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-16T07:53:42Z) - Unified Modeling of Multi-Domain Multi-Device ASR Systems [13.61897259469694]
デバイス毎に異なるドメインモデルを統一モデルに統合する革新的なアプローチを提案する。
実験により,提案手法はドメイン毎に慎重に調整されたモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-13T14:07:22Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。