論文の概要: LEDiT: Your Length-Extrapolatable Diffusion Transformer without Positional Encoding
- arxiv url: http://arxiv.org/abs/2503.04344v1
- Date: Thu, 06 Mar 2025 11:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:28.545022
- Title: LEDiT: Your Length-Extrapolatable Diffusion Transformer without Positional Encoding
- Title(参考訳): LEDiT: 位置エンコードなしの長尺伸縮式変圧器
- Authors: Shen Zhang, Yaning Tan, Siyuan Liang, Linze Li, Ge Wu, Yuhao Chen, Shuheng Li, Zhenyu Zhao, Caihua Chen, Jiajun Liang, Yao Tang,
- Abstract要約: LEDiTはこの制限を克服するためにシンプルだが強力なアーキテクチャである。
256x256 と 512x512 ImageNet の実験では、LEDiT がそれぞれ 512x512 と 1024x1024 にスケールできることが示されている。
LEDiTは、トレーニング済みのDiT上で100Kステップの微調整を行うだけで、強い外挿性能を実現する。
- 参考スコア(独自算出の注目度): 17.656734182522733
- License:
- Abstract: Diffusion transformers(DiTs) struggle to generate images at resolutions higher than their training resolutions. The primary obstacle is that the explicit positional encodings(PE), such as RoPE, need extrapolation which degrades performance when the inference resolution differs from training. In this paper, we propose a Length-Extrapolatable Diffusion Transformer(LEDiT), a simple yet powerful architecture to overcome this limitation. LEDiT needs no explicit PEs, thereby avoiding extrapolation. The key innovations of LEDiT are introducing causal attention to implicitly impart global positional information to tokens, while enhancing locality to precisely distinguish adjacent tokens. Experiments on 256x256 and 512x512 ImageNet show that LEDiT can scale the inference resolution to 512x512 and 1024x1024, respectively, while achieving better image quality compared to current state-of-the-art length extrapolation methods(NTK-aware, YaRN). Moreover, LEDiT achieves strong extrapolation performance with just 100K steps of fine-tuning on a pretrained DiT, demonstrating its potential for integration into existing text-to-image DiTs.
- Abstract(参考訳): 拡散変換器(DiT)は、トレーニング解像度よりも高い解像度で画像を生成するのに苦労する。
主な障害は、RoPEのような明示的な位置符号化(PE)が、推論解像度がトレーニングと異なるときに性能を低下させる補間を必要とすることである。
本稿では,この制限を克服するための簡易かつ強力なアーキテクチャであるLongth-Extrapolatable Diffusion Transformer(LEDiT)を提案する。
LEDiTは明示的なPEを必要としないため、外挿を避ける。
LEDiTのキーとなるイノベーションは、グローバルな位置情報をトークンに暗黙的に付与するために因果的注意を払っている一方で、隣接するトークンを正確に識別するために局所性を高めている。
256x256 と 512x512 ImageNet の実験では、LEDiT は512x512 と 1024x1024 にそれぞれ推論分解能を拡張できるが、現在の最先端長外挿法 (NTK-aware, YaRN) と比較して画質は向上している。
さらに、LEDiTは、トレーニング済みのDiTの微調整をたった100Kステップで行うことで、強力な外挿性能を実現し、既存のテキスト・ツー・イメージのDiTとの統合の可能性を示している。
関連論文リスト
- Efficient Scaling of Diffusion Transformers for Text-to-Image Generation [105.7324182618969]
各種拡散変換器(DiT)のテキスト・画像生成におけるスケーリング特性について,広範かつ厳密なアブレーションにより検討した。
We found that U-ViT, a pure self-attention based DiT model provides a simple design and scales using cross-attention based DiT variants。
論文 参考訳(メタデータ) (2024-12-16T22:59:26Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers [69.96398489841116]
フローベース大拡散変圧器(Flag-DiT)のLumina-T2X系について紹介する。
Flag-DiTは、画像、ビデオ、マルチビュー3Dオブジェクト、テキスト命令で条件付けられたオーディオクリップにノイズを変換するための統一されたフレームワークである。
これは、われわれのLumina-T2IモデルとLumina-T2Vモデルによる長い720pビデオで超高精細画像を作成するのに特に有益である。
論文 参考訳(メタデータ) (2024-05-09T17:35:16Z) - LKFormer: Large Kernel Transformer for Infrared Image Super-Resolution [5.478440050117844]
本稿では,LKFormer(Large Kernel Transformer)と呼ばれる強力なトランスモデルを提案する。
これは主に、非局所的な特徴モデリングを実行するために、大きなカーネルとの深度的な畳み込みを利用する。
我々は,GPFN(Gated-Pixel Feed-Forward Network)と呼ばれる新しいフィードフォワードネットワーク構造を考案し,ネットワーク内の情報フローを管理するLKFormerの能力を強化した。
論文 参考訳(メタデータ) (2024-01-22T11:28:24Z) - Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass
Diffusion Transformers [2.078423403798577]
画像生成モデルであるHourglass Diffusion Transformer (HDiT)を提案する。
数十億のパラメータにスケールすることが知られているTransformerアーキテクチャに基づいて構築され、畳み込みU-Netの効率とTransformerのスケーラビリティのギャップを埋める。
論文 参考訳(メタデータ) (2024-01-21T21:49:49Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - 4K-Resolution Photo Exposure Correction at 125 FPS with ~8K Parameters [9.410502389242815]
本稿では,8Kパラメータしか持たない超軽量なマルチスケール線形変換(MSLT)ネットワークを提案する。
MSLTネットワークは4K解像度のsRGB画像をTitan GTX GPUで125 Frame-Per-Second (FPS)で処理することができる。
2つのベンチマークデータセットの実験は、写真露出補正の最先端技術に対するMSLTの効率を実証している。
論文 参考訳(メタデータ) (2023-11-15T08:01:12Z) - FCL-GAN: A Lightweight and Real-Time Baseline for Unsupervised Blind
Image Deblurring [72.43250555622254]
本稿では,周波数領域の競合損失制約型軽量サイクルGANと呼ばれる,軽量でリアルタイムな非教師付きBIDベースラインを提案する。
FCL-GANは、画像領域制限がなく、画像解像度制限がなく、SOTAより25倍軽く、SOTAより5倍高速である。
いくつかの画像データセットの実験では、性能、モデルサイズ、参照時間の観点からFCL-GANの有効性が示されている。
論文 参考訳(メタデータ) (2022-04-16T15:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。