論文の概要: LiT: Delving into a Simplified Linear Diffusion Transformer for Image Generation
- arxiv url: http://arxiv.org/abs/2501.12976v1
- Date: Wed, 22 Jan 2025 16:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:35.826741
- Title: LiT: Delving into a Simplified Linear Diffusion Transformer for Image Generation
- Title(参考訳): LiT:画像生成のための簡易線形拡散変換器の開発
- Authors: Jiahao Wang, Ning Kang, Lewei Yao, Mengzhao Chen, Chengyue Wu, Songyang Zhang, Shuchen Xue, Yong Liu, Taiqiang Wu, Xihui Liu, Kaipeng Zhang, Shifeng Zhang, Wenqi Shao, Zhenguo Li, Ping Luo,
- Abstract要約: 線形拡散変換器(Linear Diffusion Transformer、LiT)は、ラップトップ上でオフラインでデプロイできる効率的なテキスト・画像変換器である。
LiTは、DiTと比較して、トレーニングステップを80%と77%削減しながら、非常に競争力のあるFIDを実現している。
テキストから画像を生成するために、LiTは最大1K解像度のフォトリアリスティック画像の迅速な合成を可能にする。
- 参考スコア(独自算出の注目度): 96.54620463472526
- License:
- Abstract: In commonly used sub-quadratic complexity modules, linear attention benefits from simplicity and high parallelism, making it promising for image synthesis tasks. However, the architectural design and learning strategy for linear attention remain underexplored in this field. In this paper, we offer a suite of ready-to-use solutions for efficient linear diffusion Transformers. Our core contributions include: (1) Simplified Linear Attention using few heads, observing the free-lunch effect of performance without latency increase. (2) Weight inheritance from a fully pre-trained diffusion Transformer: initializing linear Transformer using pre-trained diffusion Transformer and loading all parameters except for those related to linear attention. (3) Hybrid knowledge distillation objective: using a pre-trained diffusion Transformer to help the training of the student linear Transformer, supervising not only the predicted noise but also the variance of the reverse diffusion process. These guidelines lead to our proposed Linear Diffusion Transformer (LiT), an efficient text-to-image Transformer that can be deployed offline on a laptop. Experiments show that in class-conditional 256*256 and 512*512 ImageNet benchmark LiT achieves highly competitive FID while reducing training steps by 80% and 77% compared to DiT. LiT also rivals methods based on Mamba or Gated Linear Attention. Besides, for text-to-image generation, LiT allows for the rapid synthesis of up to 1K resolution photorealistic images. Project page: https://techmonsterwang.github.io/LiT/.
- Abstract(参考訳): 一般的に使用されるサブクワッドラティック複雑性モジュールでは、単純さと高い並列性から線形注意が恩恵を受け、画像合成タスクに期待できる。
しかし、この分野では、線形注意のための建築設計と学習戦略が未検討のままである。
本稿では, 線形拡散変換器を効率よく利用するための一組のソリューションを提案する。
1) 最小の頭を用いて線形注意を単純化し、レイテンシを増大させることなく、パフォーマンスのフリーランチ効果を観察する。
2) 完全に事前学習された拡散変換器からの重みの継承: 事前学習された拡散変換器を用いて線形変換器を初期化し, 線形注意に関連するものを除く全てのパラメータをロードする。
3) ハイブリッド知識蒸留の目的: 予学習拡散変換器を用いて, 予測ノイズだけでなく, 逆拡散過程のばらつきも監視し, 学生線形変換器の訓練を支援する。
これらのガイドラインは、ラップトップ上でオフラインでデプロイできる効率的なテキスト・画像変換器であるLinear Diffusion Transformer (LiT) を提案しました。
実験により、クラス条件256*256と512*512 ImageNetベンチマークのLiTは、DiTと比較してトレーニングステップを80%と77%削減しながら、非常に競争力のあるFIDを実現していることがわかった。
また、LiTはMambaやGated Linear Attentionに基づく手法と競合する。
さらに、テキスト・ツー・イメージ生成のために、LiTは最大1K解像度のフォトリアリスティック画像の迅速な合成を可能にする。
プロジェクトページ: https://techmonsterwang.github.io/LiT/。
関連論文リスト
- MonoFormer: One Transformer for Both Diffusion and Autoregression [70.81047437281583]
本稿では,自己回帰と拡散の両面において1つの変圧器を共有するという,単純な考え方を提案する。
実験結果から,本手法は現在の最先端手法に匹敵する画像生成性能が得られた。
論文 参考訳(メタデータ) (2024-09-24T17:51:04Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - ClipFormer: Key-Value Clipping of Transformers on Memristive Crossbars
for Write Noise Mitigation [6.853523674099236]
非揮発性メモリ(NVM)に基づくインメモリコンピューティング(IMC)クロスバーは、トランスフォーマーを高速化するための有望なソリューションとして登場した。
書込みノイズを動的に発生させることにより、事前訓練された視覚変換器(ViT)がクロスバーに対して脆弱であることがわかった。
本稿では,事前学習したViTモデルの非理想的精度を高めるために,新しい旋律的クロスバープラットフォームを提案する。
論文 参考訳(メタデータ) (2024-02-04T19:04:37Z) - Transformer as Linear Expansion of Learngene [38.16612771203953]
リニア・エクスパンジョン・オブ・ラーニングジェネレーション(TLEG)は多様な深さのトランスフォーマーを柔軟に生成・初期化する新しい手法である。
ImageNet-1Kの実験では、TLEGはスクラッチからトレーニングされた多くの個別モデルと対照的に、同等またはより良いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-12-09T17:01:18Z) - Linear attention is (maybe) all you need (to understand transformer
optimization) [55.81555204646486]
我々は、単純だが正準化された浅部変圧器モデルの研究により、変圧器の微妙さの理解に向けて前進する。
最も重要なことは、線形化モデルがトランスフォーマーのトレーニング力学のいくつかの顕著な側面を再現できることである。
論文 参考訳(メタデータ) (2023-10-02T10:48:42Z) - Tangent Transformers for Composition, Privacy and Removal [58.280295030852194]
TAFT(Tangent Attention Fine-Tuning)は、線形変換器の微調整方法である。
TAFT(Tangent Attention Fine-Tuning)は、線形変換器の微調整方法である。
論文 参考訳(メタデータ) (2023-07-16T18:31:25Z) - Momentum Transformer: Closing the Performance Gap Between Self-attention
and Its Linearization [31.28396970291575]
効率の良い変圧器は、変圧器の二次的な複雑さを減らすために提案されているが、精度は著しく低下している。
まず、勾配降下ステップとして注目マップの計算における線形注意と残差接続を解釈する。
次に、これらの成分に運動量を導入し、線形メモリと計算複雑性を維持しつつ、線形変圧器の精度を向上させるために運動量を利用するエンファンモーメント変換器を提案する。
論文 参考訳(メタデータ) (2022-08-01T02:37:49Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。