論文の概要: LinFusion: 1 GPU, 1 Minute, 16K Image
- arxiv url: http://arxiv.org/abs/2409.02097v3
- Date: Thu, 17 Oct 2024 08:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 23:56:04.302395
- Title: LinFusion: 1 GPU, 1 Minute, 16K Image
- Title(参考訳): LinFusion:1GPU、1分、16K画像
- Authors: Songhua Liu, Weihao Yu, Zhenxiong Tan, Xinchao Wang,
- Abstract要約: 我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
- 参考スコア(独自算出の注目度): 71.44735417472043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern diffusion models, particularly those utilizing a Transformer-based UNet for denoising, rely heavily on self-attention operations to manage complex spatial relationships, thus achieving impressive generation performance. However, this existing paradigm faces significant challenges in generating high-resolution visual content due to its quadratic time and memory complexity with respect to the number of spatial tokens. To address this limitation, we aim at a novel linear attention mechanism as an alternative in this paper. Specifically, we begin our exploration from recently introduced models with linear complexity, e.g., Mamba2, RWKV6, Gated Linear Attention, etc, and identify two key features--attention normalization and non-causal inference--that enhance high-resolution visual generation performance. Building on these insights, we introduce a generalized linear attention paradigm, which serves as a low-rank approximation of a wide spectrum of popular linear token mixers. To save the training cost and better leverage pre-trained models, we initialize our models and distill the knowledge from pre-trained StableDiffusion (SD). We find that the distilled model, termed LinFusion, achieves performance on par with or superior to the original SD after only modest training, while significantly reducing time and memory complexity. Extensive experiments on SD-v1.5, SD-v2.1, and SD-XL demonstrate that LinFusion enables satisfactory and efficient zero-shot cross-resolution generation, accommodating ultra-resolution images like 16K on a single GPU. Moreover, it is highly compatible with pre-trained SD components and pipelines, such as ControlNet, IP-Adapter, DemoFusion, DistriFusion, etc, requiring no adaptation efforts. Codes are available at https://github.com/Huage001/LinFusion.
- Abstract(参考訳): 現代の拡散モデル、特にトランスフォーマーベースのUNetをデノナイズするために利用するモデルは、複雑な空間関係を管理するための自己注意操作に大きく依存しているため、印象的な生成性能が得られる。
しかし、この既存のパラダイムは、空間トークンの数に関して2次時間とメモリの複雑さのために、高解像度の視覚コンテンツを生成する上で大きな課題に直面している。
この制限に対処するために,本論文では,新たな線形注意機構を提案する。
具体的には、最近導入された線形複雑性モデルであるMamba2、RWKV6、Gated Linear Attention等から探索を開始し、高分解能な視覚生成性能を向上するアテンション正規化と非因果推論という2つの重要な特徴を同定する。
これらの知見に基づいて、一般化された線形アテンションパラダイムを導入し、広く普及している線形トークンミキサーの低ランク近似として機能する。
トレーニングコストの削減と事前学習モデルの改善を目的として,本モデルの初期化と,事前学習されたStableDiffusion (SD) からの知識の抽出を行った。
蒸留モデルであるLinFusionは, 学習時間とメモリの複雑さを著しく低減しつつ, 従来のSDと同等以上の性能を実現していることがわかった。
SD-v1.5、SD-v2.1、SD-XLの大規模な実験により、LinFusionは1つのGPU上で16Kのような超高解像度画像を調整して、良好なゼロショットのクロスレゾリューション生成を可能にすることを示した。
さらに、プリトレーニング済みのSDコンポーネントやパイプライン(ControlNet、IP-Adapter、DemoFusion、DistriFusionなど)との互換性も高く、適応作業は不要である。
コードはhttps://github.com/Huage001/LinFusion.comで入手できる。
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [34.15905637499148]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up [64.38715211969516]
CLEARと呼ばれる畳み込み型ローカルアテンション戦略を導入し,各クエリトークンの周囲のローカルウィンドウに特徴的インタラクションを限定する。
実験により,10K反復で10Kの自己生成サンプルに注意層を微調整することにより,事前学習したDiTから線形複雑度のある学生モデルへの知識伝達を効果的に行うことができた。
論文 参考訳(メタデータ) (2024-12-20T17:57:09Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Latent-based Diffusion Model for Long-tailed Recognition [10.410057703866899]
長い尾の不均衡分布は、実用的なコンピュータビジョンアプリケーションにおいて一般的な問題である。
そこで本稿では,Long-tailed Recognition (LDMLR) のための遅延型拡散モデル(Latent-based Diffusion Model for Long-tailed Recognition)を提案する。
モデルの精度は,提案手法を用いてCIFAR-LTおよびImageNet-LTデータセットの改善を示す。
論文 参考訳(メタデータ) (2024-04-06T06:15:07Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Breaking Through the Haze: An Advanced Non-Homogeneous Dehazing Method
based on Fast Fourier Convolution and ConvNeXt [14.917290578644424]
ヘイズは通常、低コントラスト、色の変化、構造歪みで劣化した画像につながる。
本稿では、2次元離散ウェーブレット変換(DWT)、高速フーリエ畳み込み(FFC)残差ブロック、事前訓練されたConvNeXtモデルを活用する2つの分岐ネットワークを提案する。
我々のモデルは、グローバルな文脈情報を効果的に探索し、知覚品質の高い画像を生成することができる。
論文 参考訳(メタデータ) (2023-05-08T02:59:02Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。