論文の概要: Remix-DiT: Mixing Diffusion Transformers for Multi-Expert Denoising
- arxiv url: http://arxiv.org/abs/2412.05628v1
- Date: Sat, 07 Dec 2024 11:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:57:39.036483
- Title: Remix-DiT: Mixing Diffusion Transformers for Multi-Expert Denoising
- Title(参考訳): Remix-DiT:マルチエキスパートデノーミング用混合拡散変換器
- Authors: Gongfan Fang, Xinyin Ma, Xinchao Wang,
- Abstract要約: 本稿では,低コストで出力品質を向上させる手法であるRemix-DiTを紹介する。
Remix-DiTの目標は、Nモデルの高価なトレーニングを必要とせずに、異なるデノナイジングタイムステップのためにN拡散の専門家を作ることである。
ImageNetデータセットで実施された実験は、Remix-DiTが有望な結果をもたらすことを示した。
- 参考スコア(独自算出の注目度): 57.857534644932194
- License:
- Abstract: Transformer-based diffusion models have achieved significant advancements across a variety of generative tasks. However, producing high-quality outputs typically necessitates large transformer models, which result in substantial training and inference overhead. In this work, we investigate an alternative approach involving multiple experts for denoising, and introduce Remix-DiT, a novel method designed to enhance output quality at a low cost. The goal of Remix-DiT is to craft N diffusion experts for different denoising timesteps, yet without the need for expensive training of N independent models. To achieve this, Remix-DiT employs K basis models (where K < N) and utilizes learnable mixing coefficients to adaptively craft expert models. This design offers two significant advantages: first, although the total model size is increased, the model produced by the mixing operation shares the same architecture as a plain model, making the overall model as efficient as a standard diffusion transformer. Second, the learnable mixing adaptively allocates model capacity across timesteps, thereby effectively improving generation quality. Experiments conducted on the ImageNet dataset demonstrate that Remix-DiT achieves promising results compared to standard diffusion transformers and other multiple-expert methods. The code is available at https://github.com/VainF/Remix-DiT.
- Abstract(参考訳): トランスフォーマーに基づく拡散モデルは、様々な生成タスクにおいて大きな進歩を遂げた。
しかし、高品質な出力を生成するには、大きめのトランスフォーマーモデルが必要である。
そこで本研究では,複数専門家による視覚障害者のための代替手法について検討し,低コストで出力品質を向上させるための新しい手法であるRemix-DiTを紹介する。
Remix-DiTの目標は、Nモデルの高価なトレーニングを必要とせずに、異なるデノナイジングタイムステップのためにN拡散の専門家を作ることである。
これを実現するために、Remix-DiTはK基底モデル(K < N)を使用し、学習可能な混合係数を用いてエキスパートモデルを適応的に作成する。
この設計には2つの大きな利点がある: まず、全体のモデルサイズが増大するが、混合操作によって生成されたモデルは、通常のモデルと同じアーキテクチャを共有し、全体のモデルを標準拡散変圧器と同じくらい効率的にする。
第2に、学習可能なミキシングは、タイムステップ間でモデルキャパシティを適応的に割り当てることで、生成品質を効果的に向上する。
ImageNetデータセットで行った実験により、Remix-DiTは標準拡散トランスフォーマーや他のマルチエキスパート手法と比較して有望な結果が得られることが示された。
コードはhttps://github.com/VainF/Remix-DiT.comで入手できる。
関連論文リスト
- ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition [5.311735227179715]
動的ハンドジェスチャのための新しいConvMixFormerアーキテクチャを探索し,考案する。
提案手法は,NVidia Dynamic Hand Gesture と Briareo のデータセットを用いて評価する。
我々のモデルは、単一およびマルチモーダル入力に対して最先端の結果を得た。
論文 参考訳(メタデータ) (2024-11-11T16:45:18Z) - One-Step Diffusion Distillation through Score Implicit Matching [74.91234358410281]
本稿では,Score Implicit Matching (SIM) を用いて,事前学習した拡散モデルを単一ステップジェネレータモデルに蒸留する手法を提案する。
SIMはワンステップジェネレータに対して強い経験的性能を示す。
リードトランスに基づく拡散モデルにSIMを適用することにより,テキスト・ツー・イメージ生成のための単一ステップ生成器を蒸留する。
論文 参考訳(メタデータ) (2024-10-22T08:17:20Z) - TerDiT: Ternary Diffusion Models with Transformers [83.94829676057692]
TerDiTは変圧器を用いた3次拡散モデルのための量子化対応トレーニングスキームである。
我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。
論文 参考訳(メタデータ) (2024-05-23T17:57:24Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - LayoutDM: Transformer-based Diffusion Model for Layout Generation [0.6445605125467572]
高品質な画像を生成するためにトランスフォーマーベース拡散モデル(DDPM)を提案する。
雑音配置データからサンプルを生成するために,トランスフォーマを用いた条件付きレイアウトデノイザを提案する。
本手法は, 品質と多様性の観点から, 最先端の生成モデルより優れる。
論文 参考訳(メタデータ) (2023-05-04T05:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。