論文の概要: Exploring Diffusion Transformer Designs via Grafting
- arxiv url: http://arxiv.org/abs/2506.05340v1
- Date: Thu, 05 Jun 2025 17:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.90395
- Title: Exploring Diffusion Transformer Designs via Grafting
- Title(参考訳): グラフティングによる拡散変圧器設計の探索
- Authors: Keshigeyan Chandrasegaran, Michael Poli, Daniel Y. Fu, Dongjun Kim, Lea M. Hadzic, Manling Li, Agrim Gupta, Stefano Massaroli, Azalia Mirhoseini, Juan Carlos Niebles, Stefano Ermon, Li Fei-Fei,
- Abstract要約: 計算予算の少ない新しいアーキテクチャを実現するために,事前に訓練された拡散変換器(DiT)を編集する簡単な手法であるグラフト方式を提案する。
演算子置換からアーキテクチャ再構成に至るまで,事前訓練したDiTをグラフトすることで,新しい拡散モデルの設計を探索できることが示されている。
- 参考スコア(独自算出の注目度): 82.91123758506876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing model architectures requires decisions such as selecting operators (e.g., attention, convolution) and configurations (e.g., depth, width). However, evaluating the impact of these decisions on model quality requires costly pretraining, limiting architectural investigation. Inspired by how new software is built on existing code, we ask: can new architecture designs be studied using pretrained models? To this end, we present grafting, a simple approach for editing pretrained diffusion transformers (DiTs) to materialize new architectures under small compute budgets. Informed by our analysis of activation behavior and attention locality, we construct a testbed based on the DiT-XL/2 design to study the impact of grafting on model quality. Using this testbed, we develop a family of hybrid designs via grafting: replacing softmax attention with gated convolution, local attention, and linear attention, and replacing MLPs with variable expansion ratio and convolutional variants. Notably, many hybrid designs achieve good quality (FID: 2.38-2.64 vs. 2.27 for DiT-XL/2) using <2% pretraining compute. We then graft a text-to-image model (PixArt-Sigma), achieving a 1.43x speedup with less than a 2% drop in GenEval score. Finally, we present a case study that restructures DiT-XL/2 by converting every pair of sequential transformer blocks into parallel blocks via grafting. This reduces model depth by 2x and yields better quality (FID: 2.77) than other models of comparable depth. Together, we show that new diffusion model designs can be explored by grafting pretrained DiTs, with edits ranging from operator replacement to architecture restructuring. Code and grafted models: https://grafting.stanford.edu
- Abstract(参考訳): モデルアーキテクチャの設計には、演算子(例えば、注意、畳み込み)と構成(例えば、深さ、幅)を選択する必要がある。
しかしながら、これらの決定がモデル品質に与える影響を評価するには、コストのかかる事前トレーニングが必要で、アーキテクチャ調査が制限される。
既存のコード上に新しいソフトウェアを構築する方法に触発されて、私たちは次のような質問をした。 事前トレーニングされたモデルを使って、新しいアーキテクチャ設計を研究できるだろうか?
そこで本論文では,従来の分散トランスフォーマ (DiT) を簡易に編集し,計算予算の少ない新しいアーキテクチャを実現するためのグラフト処理を提案する。
アクティベーションの挙動とアテンションの局所性について解析した結果,DiT-XL/2設計に基づくテストベッドを構築し,グラフト処理がモデル品質に与える影響について検討した。
このテストベッドを用いて,ソフトマックスアテンションをゲート畳み込み,局所的アテンション,線形アテンションに置き換え,MLPを可変膨張比と畳み込み変種に置き換えた。
特に、多くのハイブリッド設計は、2%の事前学習計算を用いて品質(FID: 2.38-2.64 vs. 2.27 for DiT-XL/2)を達成する。
次にテキスト・トゥ・イメージ・モデル(PixArt-Sigma)を移植し、GenEvalスコアの2%以下で1.43倍の高速化を実現した。
最後に,DiT-XL/2を1対の逐次変圧器ブロックをグラフトにより並列ブロックに変換することで再構成するケーススタディを提案する。
これによりモデルの深さを2倍に減らし、同等の深さの他のモデルよりも優れた品質(FID: 2.77)が得られる。
また, 演算子置換からアーキテクチャ再構成に至るまで, 事前学習したDiTをグラフトすることで, 新たな拡散モデル設計を探索できることが示唆された。
コードとグラフトモデル:https://grafting.stanford.edu
関連論文リスト
- ArchComplete: Autoregressive 3D Architectural Design Generation with Hierarchical Diffusion-Based Upsampling [0.0]
ArchCompleteはベクトル量子化モデルからなる2段階のボクセルベースの3D生成パイプラインである。
パイプラインのキーとなるのは、(i) 2.5Dの知覚的損失とともに最適化された、ローカルなパッチ埋め込みのコンテキスト的にリッチなコードブックを学習することです。
ArchCompleteは643ドルという解像度で自動回帰的にモデルを生成し、それを5123ドルまで改良する。
論文 参考訳(メタデータ) (2024-12-23T20:13:27Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers [1.1499643186017316]
本稿では,トランスフォーマ言語モデルの効率を向上させるために,クロスアーキテクチャトランスファー学習(XATL)を提案する。
Methodabbrはトレーニング時間を最大2.5倍に削減し、同じ計算予算内でLMベンチマークで最大2.6%より強力なモデルで最小限に収束する。
論文 参考訳(メタデータ) (2024-04-03T12:27:36Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Attention over pre-trained Sentence Embeddings for Long Document
Classification [4.38566347001872]
変圧器はトークンの数に2次注意の複雑さがあるため、短いシーケンスに制限されることが多い。
文を意味的に意味のある埋め込みから始めるために,事前学習した文変換器を活用することを提案する。
本稿では,3つの標準文書分類データセットに対して,この簡単なアーキテクチャを用いて得られた結果について報告する。
論文 参考訳(メタデータ) (2023-07-18T09:06:35Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Learning Augmentation Distributions using Transformed Risk Minimization [47.236227685707526]
本稿では,古典的リスク最小化の拡張として,新しいemphTransformed Risk Minimization(TRM)フレームワークを提案する。
重要な応用として、与えられたクラスの予測器による分類性能を改善するために、学習強化に焦点を当てる。
論文 参考訳(メタデータ) (2021-11-16T02:07:20Z) - Predicting Attention Sparsity in Transformers [0.9786690381850356]
本稿では, 遠心注意の空間パターンを計算前に同定するモデルであるスペーサーファインダーを提案する。
我々の研究は、予測された注目グラフの間隔とリコールの間のトレードオフを広範囲に分析することで、モデル効率を研究するための新しい角度を提供する。
論文 参考訳(メタデータ) (2021-09-24T20:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。