論文の概要: LinFusion: 1 GPU, 1 Minute, 16K Image
- arxiv url: http://arxiv.org/abs/2409.02097v3
- Date: Thu, 17 Oct 2024 08:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 23:56:04.302395
- Title: LinFusion: 1 GPU, 1 Minute, 16K Image
- Title(参考訳): LinFusion:1GPU、1分、16K画像
- Authors: Songhua Liu, Weihao Yu, Zhenxiong Tan, Xinchao Wang,
- Abstract要約: 我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
- 参考スコア(独自算出の注目度): 71.44735417472043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern diffusion models, particularly those utilizing a Transformer-based UNet for denoising, rely heavily on self-attention operations to manage complex spatial relationships, thus achieving impressive generation performance. However, this existing paradigm faces significant challenges in generating high-resolution visual content due to its quadratic time and memory complexity with respect to the number of spatial tokens. To address this limitation, we aim at a novel linear attention mechanism as an alternative in this paper. Specifically, we begin our exploration from recently introduced models with linear complexity, e.g., Mamba2, RWKV6, Gated Linear Attention, etc, and identify two key features--attention normalization and non-causal inference--that enhance high-resolution visual generation performance. Building on these insights, we introduce a generalized linear attention paradigm, which serves as a low-rank approximation of a wide spectrum of popular linear token mixers. To save the training cost and better leverage pre-trained models, we initialize our models and distill the knowledge from pre-trained StableDiffusion (SD). We find that the distilled model, termed LinFusion, achieves performance on par with or superior to the original SD after only modest training, while significantly reducing time and memory complexity. Extensive experiments on SD-v1.5, SD-v2.1, and SD-XL demonstrate that LinFusion enables satisfactory and efficient zero-shot cross-resolution generation, accommodating ultra-resolution images like 16K on a single GPU. Moreover, it is highly compatible with pre-trained SD components and pipelines, such as ControlNet, IP-Adapter, DemoFusion, DistriFusion, etc, requiring no adaptation efforts. Codes are available at https://github.com/Huage001/LinFusion.
- Abstract(参考訳): 現代の拡散モデル、特にトランスフォーマーベースのUNetをデノナイズするために利用するモデルは、複雑な空間関係を管理するための自己注意操作に大きく依存しているため、印象的な生成性能が得られる。
しかし、この既存のパラダイムは、空間トークンの数に関して2次時間とメモリの複雑さのために、高解像度の視覚コンテンツを生成する上で大きな課題に直面している。
この制限に対処するために,本論文では,新たな線形注意機構を提案する。
具体的には、最近導入された線形複雑性モデルであるMamba2、RWKV6、Gated Linear Attention等から探索を開始し、高分解能な視覚生成性能を向上するアテンション正規化と非因果推論という2つの重要な特徴を同定する。
これらの知見に基づいて、一般化された線形アテンションパラダイムを導入し、広く普及している線形トークンミキサーの低ランク近似として機能する。
トレーニングコストの削減と事前学習モデルの改善を目的として,本モデルの初期化と,事前学習されたStableDiffusion (SD) からの知識の抽出を行った。
蒸留モデルであるLinFusionは, 学習時間とメモリの複雑さを著しく低減しつつ, 従来のSDと同等以上の性能を実現していることがわかった。
SD-v1.5、SD-v2.1、SD-XLの大規模な実験により、LinFusionは1つのGPU上で16Kのような超高解像度画像を調整して、良好なゼロショットのクロスレゾリューション生成を可能にすることを示した。
さらに、プリトレーニング済みのSDコンポーネントやパイプライン(ControlNet、IP-Adapter、DemoFusion、DistriFusionなど)との互換性も高く、適応作業は不要である。
コードはhttps://github.com/Huage001/LinFusion.comで入手できる。
関連論文リスト
- Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Latent-based Diffusion Model for Long-tailed Recognition [10.410057703866899]
長い尾の不均衡分布は、実用的なコンピュータビジョンアプリケーションにおいて一般的な問題である。
そこで本稿では,Long-tailed Recognition (LDMLR) のための遅延型拡散モデル(Latent-based Diffusion Model for Long-tailed Recognition)を提案する。
モデルの精度は,提案手法を用いてCIFAR-LTおよびImageNet-LTデータセットの改善を示す。
論文 参考訳(メタデータ) (2024-04-06T06:15:07Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - HartleyMHA: Self-Attention in Frequency Domain for Resolution-Robust and
Parameter-Efficient 3D Image Segmentation [4.48473804240016]
本稿では,効率的な自己注意による画像解像度のトレーニングに頑健なHartleyMHAモデルを提案する。
我々は、モデルサイズを桁違いに小さくするために、共有パラメータを持つハートレー変換を用いてFNOを変更する。
BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。
論文 参考訳(メタデータ) (2023-10-05T18:44:41Z) - Breaking Through the Haze: An Advanced Non-Homogeneous Dehazing Method
based on Fast Fourier Convolution and ConvNeXt [14.917290578644424]
ヘイズは通常、低コントラスト、色の変化、構造歪みで劣化した画像につながる。
本稿では、2次元離散ウェーブレット変換(DWT)、高速フーリエ畳み込み(FFC)残差ブロック、事前訓練されたConvNeXtモデルを活用する2つの分岐ネットワークを提案する。
我々のモデルは、グローバルな文脈情報を効果的に探索し、知覚品質の高い画像を生成することができる。
論文 参考訳(メタデータ) (2023-05-08T02:59:02Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z) - Collaborative Distillation for Ultra-Resolution Universal Style Transfer [71.18194557949634]
本稿では,エンコーダ-デコーダを用いたニューラルスタイル変換のための新しい知識蒸留法(コラボレーティブ蒸留)を提案する。
12GBのGPUで、初めて超高解像度(40メガピクセル以上)のユニバーサルなスタイル転送を実現しました。
論文 参考訳(メタデータ) (2020-03-18T18:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。