論文の概要: Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection
- arxiv url: http://arxiv.org/abs/2409.15557v1
- Date: Mon, 23 Sep 2024 21:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 12:23:41.939175
- Title: Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection
- Title(参考訳): 自動インターバルとサブネットワーク選択による効率的な拡散エキスパートの混合
- Authors: Alireza Ganjdanesh, Yan Kang, Yuchen Liu, Richard Zhang, Zhe Lin, Heng Huang,
- Abstract要約: 本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。
提案手法であるDiffPruningの有効性を,複数のデータセットで示す。
- 参考スコア(独自算出の注目度): 63.96018203905272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion probabilistic models can generate high-quality samples. Yet, their sampling process requires numerous denoising steps, making it slow and computationally intensive. We propose to reduce the sampling cost by pruning a pretrained diffusion model into a mixture of efficient experts. First, we study the similarities between pairs of denoising timesteps, observing a natural clustering, even across different datasets. This suggests that rather than having a single model for all time steps, separate models can serve as ``experts'' for their respective time intervals. As such, we separately fine-tune the pretrained model on each interval, with elastic dimensions in depth and width, to obtain experts specialized in their corresponding denoising interval. To optimize the resource usage between experts, we introduce our Expert Routing Agent, which learns to select a set of proper network configurations. By doing so, our method can allocate the computing budget between the experts in an end-to-end manner without requiring manual heuristics. Finally, with a selected configuration, we fine-tune our pruned experts to obtain our mixture of efficient experts. We demonstrate the effectiveness of our method, DiffPruning, across several datasets, LSUN-Church, LSUN-Beds, FFHQ, and ImageNet, on the Latent Diffusion Model architecture.
- Abstract(参考訳): 拡散確率モデルは高品質なサンプルを生成することができる。
しかし、それらのサンプリングプロセスには多くの分極ステップが必要であり、遅くて計算集約的である。
本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。
まず、異なるデータセットをまたいだ自然なクラスタリングを観察し、時間ステップのペア間の類似性について検討する。
これは、すべての時間ステップに1つのモデルを持つのではなく、それぞれの時間間隔に '`experts'' として機能することを示唆している。
そこで我々は,各区間における事前学習モデルを,深さと幅の弾性次元で別々に微調整し,対応する区間を専門とする専門家を得る。
エキスパート間のリソース利用を最適化するために、適切なネットワーク構成のセットを選択することを学ぶExpert Routing Agentを紹介します。
これにより,手作業によるヒューリスティックを必要とせずに,専門家間の計算予算をエンドツーエンドで配分することができる。
最後に、選択した設定で、白羽のエキスパートを微調整して、効率的な専門家の混合物を取得します。
我々は,複数のデータセット(LSUN-Church, LSUN-Beds, FFHQ, ImageNet)にわたるDiffPruning法の有効性を示す。
関連論文リスト
- Upcycling Instruction Tuning from Dense to Mixture-of-Experts via Parameter Merging [36.0133566024214]
Upcycling Instruction Tuning (UpIT) は、密度の高い事前学習されたモデルをMoE命令モデルにチューニングするためのデータ効率のよいアプローチである。
MoEモデルの各専門家が期待通りに機能するように、我々は、ルータを事前最適化するために、各専門家が抽出する少数のシードデータを選択する。
論文 参考訳(メタデータ) (2024-10-02T14:48:22Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Kullback-Leibler Barycentre of Stochastic Processes [0.0]
エージェントが様々な専門家のモデルに対する見解と洞察を組み合わせることを目的とした問題を考える。
バリセントモデルの存在と特異性を示し、ラドン-ニコディム微分の明示的な表現を証明する。
合成モデルの最適ドリフトを求めるために,2つのディープラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-05T20:45:27Z) - Dropout-Based Rashomon Set Exploration for Efficient Predictive
Multiplicity Estimation [15.556756363296543]
予測多重性(英: Predictive multiplicity)とは、ほぼ等しい最適性能を達成する複数の競合モデルを含む分類タスクを指す。
本稿では,Rashomon 集合のモデル探索にドロップアウト手法を利用する新しいフレームワークを提案する。
本手法は, 予測多重度推定の有効性の観点から, ベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-02-01T16:25:00Z) - Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures [12.703947839247693]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。
本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T17:48:09Z) - Layer Ensembles [95.42181254494287]
本稿では,ネットワークの各層に対する独立なカテゴリ分布の集合を考慮した不確実性推定手法を提案する。
その結果,メモリと実行時間が少なくなるモデルが得られた。
論文 参考訳(メタデータ) (2022-10-10T17:52:47Z) - On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文 参考訳(メタデータ) (2022-04-20T01:40:19Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Lifelong Mixture of Variational Autoencoders [15.350366047108103]
本稿では,専門家の終末から終末までの学習混合物を提案する。
混合システムのエキスパートは、個々の成分証拠の混合を最小限にすることで、共同で訓練される。
モデルは、これらが以前学んだものと似ている場合に、新しいタスクを素早く学習することができる。
論文 参考訳(メタデータ) (2021-07-09T22:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。