論文の概要: FastFLUX: Pruning FLUX with Block-wise Replacement and Sandwich Training
- arxiv url: http://arxiv.org/abs/2506.10035v1
- Date: Tue, 10 Jun 2025 20:48:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.329208
- Title: FastFLUX: Pruning FLUX with Block-wise Replacement and Sandwich Training
- Title(参考訳): FastFLUX: ブロックワイドリプレースとサンドウィッチトレーニングを備えたFastFLUX
- Authors: Fuhan Cai, Yong Guo, Jie Li, Wenbo Li, Xiangzhong Fang, Jian Chen,
- Abstract要約: 本稿では,FLUXの推論効率を向上させるアーキテクチャレベルのプルーニングフレームワークであるFastFLUXを提案する。
中心となるのはBlock-wise Replacement with Linear Layers (BRLL) 法であり、ResBlocksの構造的に複雑な残枝を軽量な線形層に置き換えている。
実験の結果,FastFLUXは定性評価と定量的評価の両方で高画質を維持しつつ,20%の階層プルーニングでも推論速度を大幅に向上していることがわかった。
- 参考スコア(独自算出の注目度): 26.162971280828046
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in text-to-image (T2I) generation have led to the emergence of highly expressive models such as diffusion transformers (DiTs), exemplified by FLUX. However, their massive parameter sizes lead to slow inference, high memory usage, and poor deployability. Existing acceleration methods (e.g., single-step distillation and attention pruning) often suffer from significant performance degradation and incur substantial training costs. To address these limitations, we propose FastFLUX, an architecture-level pruning framework designed to enhance the inference efficiency of FLUX. At its core is the Block-wise Replacement with Linear Layers (BRLL) method, which replaces structurally complex residual branches in ResBlocks with lightweight linear layers while preserving the original shortcut connections for stability. Furthermore, we introduce Sandwich Training (ST), a localized fine-tuning strategy that leverages LoRA to supervise neighboring blocks, mitigating performance drops caused by structural replacement. Experiments show that our FastFLUX maintains high image quality under both qualitative and quantitative evaluations, while significantly improving inference speed, even with 20\% of the hierarchy pruned. Our code will be available soon.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)生成の最近の進歩は、FLUXで実証された拡散トランスフォーマー(DiT)のような高表現性モデルの出現につながっている。
しかし、その膨大なパラメータサイズは、推論の遅さ、メモリ使用量の増加、デプロイ可能性の低下につながります。
既存の加速法(例:シングルステップ蒸留、注意喚起)は、しばしば性能が著しく低下し、かなりの訓練コストがかかる。
これらの制約に対処するため、FLUXの推論効率を高めるために設計されたアーキテクチャレベルのプルーニングフレームワークであるFastFLUXを提案する。
中心となるのはBlock-wise Replacement with Linear Layers (BRLL) 法であり、これはResBlocksの構造上複雑な残枝を軽量な線形層に置き換え、元のショートカット接続を安定させるために保存するものである。
さらに,LoRAを利用した局所的な微調整戦略であるサンドウィッチ・トレーニング(ST)を導入し,構造的置換による性能低下を軽減した。
実験の結果,FastFLUXは定性評価と定量的評価の両面で高い画質を維持しつつ,20倍の精度で推論速度を向上していることがわかった。
私たちのコードはまもなく利用可能になります。
関連論文リスト
- FASP: Fast and Accurate Structured Pruning of Large Language Models [24.185245582500876]
FASP(Fast and Accurate Structured Pruning)は,大規模言語モデル(LLM)のための新しい構造化プルーニングフレームワークである。
FASPはシーケンシャルなレイヤを相互にリンクする独自のプルーニング構造を採用しており、同時に前のレイヤで対応する行を削除しながら、追加のパフォーマンス損失を発生させることなく、ひとつのレイヤで列を削除できる。
我々は,OPTおよびLLaMAモデルファミリー上でのFASPを評価し,最先端の手法と比較して,下流タスクの難易度と精度において優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-16T09:38:39Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - CFSP: An Efficient Structured Pruning Framework for LLMs with Coarse-to-Fine Activation Information [33.01180010689081]
CFSPと呼ばれる効率的な構造化プルーニングフレームワークを提案する。
まず、その重要度に基づいて各ブロックに分散予算を割り当て、その後、各ブロックに重要な重みを保持する。
その結果,CFSP は様々な予算にまたがる様々なモデルにおいて,既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-20T04:03:27Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - Structured Sparsity Learning for Efficient Video Super-Resolution [99.1632164448236]
我々は、ビデオ超解像(VSR)モデルの特性に応じて、構造化スパシティ学習(SSL)と呼ばれる構造化プルーニング手法を開発する。
SSLでは,残差ブロック,リカレントネットワーク,アップサンプリングネットワークなど,VSRモデルのいくつかの重要なコンポーネントに対するプルーニングスキームを設計する。
論文 参考訳(メタデータ) (2022-06-15T17:36:04Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。