論文の概要: TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training
- arxiv url: http://arxiv.org/abs/2501.04765v1
- Date: Wed, 08 Jan 2025 18:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:30.452697
- Title: TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training
- Title(参考訳): TREAD: 効率的なアーキテクチャ非依存拡散トレーニングのためのトークンルーティング
- Authors: Felix Krause, Timy Phan, Vincent Tao Hu, Björn Ommer,
- Abstract要約: この研究は、モデルのより深い層に再導入されるまで、これらの情報を格納する事前定義されたルートを使用することで、拡散バックボーンのトレーニング効率を向上させることを目的としている。
現在のほとんどのアプローチとは異なり、TREADはアーキテクチャの変更なしにこれを達成する。
本手法は,標準ベンチマークである ImageNet-1K 256 x 256 のクラス条件合成において,計算コストを削減し,モデル性能を同時に向上することを示す。
- 参考スコア(独自算出の注目度): 23.54555663670558
- License:
- Abstract: Diffusion models have emerged as the mainstream approach for visual generation. However, these models usually suffer from sample inefficiency and high training costs. This issue is particularly pronounced in the standard diffusion transformer architecture due to its quadratic complexity relative to input length. Recent works have addressed this by reducing the number of tokens processed in the model, often through masking. In contrast, this work aims to improve the training efficiency of the diffusion backbone by using predefined routes that store this information until it is reintroduced to deeper layers of the model, rather than discarding these tokens entirely. Further, we combine multiple routes and introduce an adapted auxiliary loss that accounts for all applied routes. Our method is not limited to the common transformer-based model - it can also be applied to state-space models. Unlike most current approaches, TREAD achieves this without architectural modifications. Finally, we show that our method reduces the computational cost and simultaneously boosts model performance on the standard benchmark ImageNet-1K 256 x 256 in class-conditional synthesis. Both of these benefits multiply to a convergence speedup of 9.55x at 400K training iterations compared to DiT and 25.39x compared to the best benchmark performance of DiT at 7M training iterations.
- Abstract(参考訳): 拡散モデルは視覚生成の主流のアプローチとして現れてきた。
しかしながら、これらのモデルは通常、サンプルの非効率性と高いトレーニングコストに悩まされる。
この問題は、入力長に対して2次複雑さがあるため、標準拡散変圧器アーキテクチャにおいて特に顕著である。
最近の研究は、しばしばマスキングを通じて、モデルで処理されるトークンの数を減らすことで、この問題に対処している。
対照的に、この研究は拡散バックボーンのトレーニング効率を向上させることを目的としており、これらのトークンを完全に破棄するのではなく、モデルのより深い層に再導入されるまで、これらの情報を格納する事前定義された経路を使用する。
さらに、複数の経路を組み合わせて、適用された全ての経路を考慮に入れた適応的な補助的損失を導入する。
我々の手法は共通トランスモデルに限らず、状態空間モデルにも適用できる。
現在のほとんどのアプローチとは異なり、TREADはアーキテクチャの変更なしにこれを達成する。
最後に,本手法は計算コストを削減し,標準ベンチマークである ImageNet-1K 256 x 256 のクラス条件合成におけるモデル性能を同時に向上させることを示す。
これらの2つの利点は、Ditと25.39xと比較して400Kのトレーニングイテレーションで9.55倍の収束速度に乗じることができる。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - KIND: Knowledge Integration and Diversion in Diffusion Models [40.442303050947395]
拡散モデルにおいてtextbfKnowledge textbfINtegration と textbfDiversion を実行する textbfKIND を導入する。
KINDは、現在のタスクにおけるモデルパフォーマンスの最大化から、伝達可能な共通知識の凝縮までのトレーニング目標を調整することで、従来の事前学習手法を再定義する。
その結果,KINDは,他のPEFT法や学習遺伝子法と比較して最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-14T07:22:28Z) - You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs [13.133574069588896]
YOSOは、高速でスケーラブルで高忠実なワンステップ画像合成のための新しい生成モデルであり、高いトレーニング安定性とモードカバレッジを持つ。
提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。
特に、YOSO-PixArt-$alpha$は、512の解像度でトレーニングされた1ステップで画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-19T17:34:27Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Transfer Learning Between Different Architectures Via Weights Injection [0.0]
本稿では,計算量的に安価なインジェクション手法を用いて,異なるアーキテクチャ間のパラメータ転送のためのナイーブアルゴリズムを提案する。
第一の目的は、ニューラルネットワークのトレーニングをスクラッチからスピードアップすることだ。
論文 参考訳(メタデータ) (2021-01-07T20:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。