論文の概要: LiT: Delving into a Simple Linear Diffusion Transformer for Image Generation
- arxiv url: http://arxiv.org/abs/2501.12976v2
- Date: Fri, 26 Sep 2025 03:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.220875
- Title: LiT: Delving into a Simple Linear Diffusion Transformer for Image Generation
- Title(参考訳): LiT: 画像生成のための単純な線形拡散変換器の開発
- Authors: Jiahao Wang, Ning Kang, Lewei Yao, Mengzhao Chen, Chengyue Wu, Songyang Zhang, Shuchen Xue, Yong Liu, Taiqiang Wu, Xihui Liu, Kaipeng Zhang, Shifeng Zhang, Wenqi Shao, Zhenguo Li, Ping Luo,
- Abstract要約: 本稿では,事前学習した拡散変換器(DiT)を線形DiTに変換する方法について検討する。
線形アテンション設計から最適化戦略まで,さまざまなソリューションを提供しています。
- 参考スコア(独自算出の注目度): 135.5883109917964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate how to convert a pre-trained Diffusion Transformer (DiT) into a linear DiT, as its simplicity, parallelism, and efficiency for image generation. Through detailed exploration, we offer a suite of ready-to-use solutions, ranging from linear attention design to optimization strategies. Our core contributions include 5 practical guidelines: 1) Applying depth-wise convolution within simple linear attention is sufficient for image generation. 2) Using fewer heads in linear attention provides a free-lunch performance boost without increasing latency. 3) Inheriting weights from a fully converged, pre-trained DiT. 4) Loading all parameters except those related to linear attention. 5) Hybrid knowledge distillation: using a pre-trained teacher DiT to help the training of the student linear DiT, supervising not only the predicted noise but also the variance of the reverse diffusion process. These guidelines lead to our proposed \underline{L}inear D\underline{i}ffusion \underline{T}ransformer (LiT), which serves as a safe and efficient alternative baseline for DiT with pure linear attention. In class-conditional 256$\times$256 and 512$\times$512 ImageNet generation, LiT can be quickly adapted from DiT using only $20\%$ and $33\%$ of DiT's training steps, respectively, while achieving comparable performance. LiT also rivals methods based on Mamba or Gated Linear Attention. Moreover, the same guidelines generalize to text-to-image generation: LiT can be swiftly converted from PixArt-$\Sigma$ to generate high-quality images, maintaining comparable GenEval scores.
- Abstract(参考訳): 本稿では,事前学習した拡散変換器(DiT)を線形DiTに変換する方法について,その単純さ,並列性,画像生成効率について検討する。
詳細な調査を通じて、線形アテンション設計から最適化戦略まで、さまざまな活用可能なソリューションを提供しています。
私たちのコアコントリビューションには,5つの実践的ガイドラインがあります。
1) 単純な線形注意に奥行きの畳み込みを適用することは画像生成に十分である。
2) 線形注意における頭部の減少は, 遅延の増加を伴わずに, フリーランチ性能の向上をもたらす。
3)完全に収束したトレーニング済みのDiTから重量を継承する。
4) 線形注意に関連するものを除く全てのパラメータをロードする。
5) ハイブリッド知識蒸留: 予習教師DiTを用いて, 予測ノイズだけでなく, 逆拡散過程のばらつきも監視し, 学生線形DiTの訓練を支援する。
これらのガイドラインは、D\underline{L}inear D\underline{i}ffusion \underline{T}ransformer (LiT) に導かれる。
クラス条件 256$\times$256 と 512$\times$512 ImageNet 生成では、LiT は DiT からすぐに適応できる。
また、LiTはMambaやGated Linear Attentionに基づく手法と競合する。
LiTはPixArt-$\Sigma$から素早く変換して高品質な画像を生成し、同等のGenEvalスコアを維持する。
関連論文リスト
- EDiT: Efficient Diffusion Transformers with Linear Compressed Attention [11.36660486878447]
DiTの注意の2次スケーリング特性は、高解像度の画像生成や限られたリソースを持つデバイスを妨げます。
これらの効率ボトルネックを軽減するために,効率的な拡散変換器(EDiT)を導入する。
PixArt-Sigma(Conventional DiT)とStable Diffusion 3.5-Medium(MM-DiT)に統合することで,EDiTおよびMM-EDiTアーキテクチャの有効性を示す。
論文 参考訳(メタデータ) (2025-03-20T21:58:45Z) - On Disentangled Training for Nonlinear Transform in Learned Image Compression [59.66885464492666]
学習画像圧縮(lic)は,従来のコーデックに比べて高いレート歪み(R-D)性能を示した。
既存のlic法は、非線形変換の学習において、エネルギーのコンパクト化によって生じる緩やかな収束を見落としている。
非線形変換の訓練において, エネルギーの縮退を両立させる線形補助変換(AuxT)を提案する。
論文 参考訳(メタデータ) (2025-01-23T15:32:06Z) - MonoFormer: One Transformer for Both Diffusion and Autoregression [70.81047437281583]
本稿では,自己回帰と拡散の両面において1つの変圧器を共有するという,単純な考え方を提案する。
実験結果から,本手法は現在の最先端手法に匹敵する画像生成性能が得られた。
論文 参考訳(メタデータ) (2024-09-24T17:51:04Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Transformer as Linear Expansion of Learngene [38.16612771203953]
リニア・エクスパンジョン・オブ・ラーニングジェネレーション(TLEG)は多様な深さのトランスフォーマーを柔軟に生成・初期化する新しい手法である。
ImageNet-1Kの実験では、TLEGはスクラッチからトレーニングされた多くの個別モデルと対照的に、同等またはより良いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-12-09T17:01:18Z) - Linear attention is (maybe) all you need (to understand transformer
optimization) [55.81555204646486]
我々は、単純だが正準化された浅部変圧器モデルの研究により、変圧器の微妙さの理解に向けて前進する。
最も重要なことは、線形化モデルがトランスフォーマーのトレーニング力学のいくつかの顕著な側面を再現できることである。
論文 参考訳(メタデータ) (2023-10-02T10:48:42Z) - Tangent Transformers for Composition, Privacy and Removal [58.280295030852194]
TAFT(Tangent Attention Fine-Tuning)は、線形変換器の微調整方法である。
TAFT(Tangent Attention Fine-Tuning)は、線形変換器の微調整方法である。
論文 参考訳(メタデータ) (2023-07-16T18:31:25Z) - Momentum Transformer: Closing the Performance Gap Between Self-attention
and Its Linearization [31.28396970291575]
効率の良い変圧器は、変圧器の二次的な複雑さを減らすために提案されているが、精度は著しく低下している。
まず、勾配降下ステップとして注目マップの計算における線形注意と残差接続を解釈する。
次に、これらの成分に運動量を導入し、線形メモリと計算複雑性を維持しつつ、線形変圧器の精度を向上させるために運動量を利用するエンファンモーメント変換器を提案する。
論文 参考訳(メタデータ) (2022-08-01T02:37:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。