論文の概要: TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training
- arxiv url: http://arxiv.org/abs/2501.04765v2
- Date: Thu, 27 Mar 2025 14:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:50:06.179487
- Title: TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training
- Title(参考訳): TREAD: 効率的なアーキテクチャ非依存拡散トレーニングのためのトークンルーティング
- Authors: Felix Krause, Timy Phan, Ming Gui, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer,
- Abstract要約: 拡散モデルは通常、サンプルの非効率性と高いトレーニングコストに悩まされる。
TREADは計算コストを削減し、同時にモデル性能を向上することを示す。
ガイド付きで2.09、ガイドなしで3.93の競合FIDを達成する。
- 参考スコア(独自算出の注目度): 20.712053538676116
- License:
- Abstract: Diffusion models have emerged as the mainstream approach for visual generation. However, these models typically suffer from sample inefficiency and high training costs. Consequently, methods for efficient finetuning, inference and personalization were quickly adopted by the community. However, training these models in the first place remains very costly. While several recent approaches - including masking, distillation, and architectural modifications - have been proposed to improve training efficiency, each of these methods comes with a tradeoff: they achieve enhanced performance at the expense of increased computational cost or vice versa. In contrast, this work aims to improve training efficiency as well as generative performance at the same time through routes that act as a transport mechanism for randomly selected tokens from early layers to deeper layers of the model. Our method is not limited to the common transformer-based model - it can also be applied to state-space models and achieves this without architectural modifications or additional parameters. Finally, we show that TREAD reduces computational cost and simultaneously boosts model performance on the standard ImageNet-256 benchmark in class-conditional synthesis. Both of these benefits multiply to a convergence speedup of 14x at 400K training iterations compared to DiT and 37x compared to the best benchmark performance of DiT at 7M training iterations. Furthermore, we achieve a competitive FID of 2.09 in a guided and 3.93 in an unguided setting, which improves upon the DiT, without architectural changes.
- Abstract(参考訳): 拡散モデルは視覚生成の主流のアプローチとして現れてきた。
しかし、これらのモデルは通常、サンプルの非効率性と高いトレーニングコストに悩まされる。
その結果, 効率的な微調整, 推測, パーソナライゼーションの手法が急速に普及した。
しかし、これらのモデルのトレーニングはそもそも非常にコストがかかる。
マスク、蒸留、アーキテクチャの変更など、近年ではトレーニング効率を向上させるためにいくつかのアプローチが提案されているが、これらの手法にはトレードオフが伴っている。
対照的に、本研究は、初期層からより深い層へのランダムに選択されたトークンの輸送メカニズムとして機能する経路を通じて、トレーニング効率と生成性能を同時に向上することを目的としている。
我々の方法は共通トランスモデルに限らず、状態空間モデルにも適用でき、アーキテクチャの変更やパラメータの追加なしにこれを実現することができる。
最後に、TREADは計算コストを削減し、クラス条件合成における標準画像Net-256ベンチマークのモデル性能を同時に向上することを示す。
これらの2つの利点は、DiTと37倍のトレーニングイテレーションで14倍の収束速度に乗じて、DiTの7Mのトレーニングイテレーションで最高のベンチマークパフォーマンスで比較できる。
さらに、ガイド付き 2.09 と無誘導環境で 3.93 の競合 FID を実現し、アーキテクチャ上の変更なしに DiT を改善する。
関連論文リスト
- Masked Generative Nested Transformers with Decode Time Scaling [21.34984197218021]
本研究では,視覚生成アルゴリズムにおける推論計算効率のボトルネックに対処することを目的とする。
我々は、計算を効果的に活用するためにデコード時間モデルのスケーリングスケジュールを設計し、計算の一部をキャッシュして再利用することができる。
実験の結果,ベースラインよりも3倍近い計算量で,競争性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-02-01T09:41:01Z) - LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers [79.07412045476872]
拡散変換器は、様々な生成タスクの優越的なモデルとして登場してきた。
各拡散段階におけるモデル全体の実行は不要であることを示し、いくつかの計算は以前のステップの結果を遅延的に再利用することでスキップできることを示した。
遅延学習フレームワークを提案する。このフレームワークは,初期ステップからキャッシュされた結果を効率よく活用し,冗長な計算を省略する。
論文 参考訳(メタデータ) (2024-12-17T01:12:35Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - KIND: Knowledge Integration and Diversion in Diffusion Models [40.442303050947395]
拡散モデルにおいてtextbfKnowledge textbfINtegration と textbfDiversion を実行する textbfKIND を導入する。
KINDは、現在のタスクにおけるモデルパフォーマンスの最大化から、伝達可能な共通知識の凝縮までのトレーニング目標を調整することで、従来の事前学習手法を再定義する。
その結果,KINDは,他のPEFT法や学習遺伝子法と比較して最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-14T07:22:28Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Transfer Learning Between Different Architectures Via Weights Injection [0.0]
本稿では,計算量的に安価なインジェクション手法を用いて,異なるアーキテクチャ間のパラメータ転送のためのナイーブアルゴリズムを提案する。
第一の目的は、ニューラルネットワークのトレーニングをスクラッチからスピードアップすることだ。
論文 参考訳(メタデータ) (2021-01-07T20:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。