論文の概要: Amber-Image: Efficient Compression of Large-Scale Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2602.17047v1
- Date: Thu, 19 Feb 2026 03:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.617628
- Title: Amber-Image: Efficient Compression of Large-Scale Diffusion Transformers
- Title(参考訳): Amber-Image: 大規模拡散変圧器の効率的な圧縮
- Authors: Chaojie Yang, Tian Li, Yue Zhang, Jun Gao,
- Abstract要約: 本稿では,60層のMMDiTをベースとしたQwen-Imageを,スクラッチからトレーニングを受けることなく軽量なモデルに変換する,効率的な圧縮フレームワークを提案する。
本稿では,一連のテキスト・ツー・イメージ(T2I)モデルであるAmber-Imageを紹介する。
提案手法は,パラメータを70%削減し,大規模データエンジニアリングの必要性を解消する。
- 参考スコア(独自算出の注目度): 15.339385087773744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformer (DiT) architectures have significantly advanced Text-to-Image (T2I) generation but suffer from prohibitive computational costs and deployment barriers. To address these challenges, we propose an efficient compression framework that transforms the 60-layer dual-stream MMDiT-based Qwen-Image into lightweight models without training from scratch. Leveraging this framework, we introduce Amber-Image, a series of streamlined T2I models. We first derive Amber-Image-10B using a timestep-sensitive depth pruning strategy, where retained layers are reinitialized via local weight averaging and optimized through layer-wise distillation and full-parameter fine-tuning. Building on this, we develop Amber-Image-6B by introducing a hybrid-stream architecture that converts deep-layer dual streams into a single stream initialized from the image branch, further refined via progressive distillation and lightweight fine-tuning. Our approach reduces parameters by 70% and eliminates the need for large-scale data engineering. Notably, the entire compression and training pipeline-from the 10B to the 6B variant-requires fewer than 2,000 GPU hours, demonstrating exceptional cost-efficiency compared to training from scratch. Extensive evaluations on benchmarks like DPG-Bench and LongText-Bench show that Amber-Image achieves high-fidelity synthesis and superior text rendering, matching much larger models.
- Abstract(参考訳): Diffusion Transformer (DiT) アーキテクチャはテキスト・トゥ・イメージ(T2I)の生成が著しく進歩しているが、計算コストや配置障壁に悩まされている。
これらの課題に対処するために,60層のMMDiTベースのQwen-Imageをスクラッチからトレーニングすることなく軽量なモデルに変換する,効率的な圧縮フレームワークを提案する。
このフレームワークを活用して、一連の合理化されたT2IモデルであるAmber-Imageを紹介します。
まず, 各層を局所的な重量平均化により再活性化し, 層ワイド蒸留とフルパラメータ微調整により最適化する, 時間差の深い深度切削戦略を用いて, Amber-Image-10B を導出する。
そこで我々は, 深層二重ストリームをイメージブランチから初期化した単一ストリームに変換するハイブリッドストリームアーキテクチャを導入し, プログレッシブ蒸留と軽量微調整により改良したAmber-Image-6Bを開発した。
提案手法は,パラメータを70%削減し,大規模データエンジニアリングの必要性を解消する。
10Bから6Bへの圧縮とトレーニングパイプライン全体は、2000時間未満のGPU時間を必要としており、スクラッチからのトレーニングに比べて非常にコスト効率が高い。
DPG-BenchやLongText-Benchのようなベンチマークの大規模な評価は、Amber-Imageが高忠実な合成と優れたテキストレンダリングを実現し、はるかに大きなモデルと一致していることを示している。
関連論文リスト
- DPAR: Dynamic Patchification for Efficient Autoregressive Visual Generation [10.719563134726057]
本稿では,デコーダのみの自己回帰モデルであるDPARについて述べる。
DPAR は Imagenet 256 と 384 でそれぞれトークン数を 1.81x と 2.06x に削減し、トレーニングコストの最大40% FLOP を削減した。
論文 参考訳(メタデータ) (2025-12-26T05:03:47Z) - Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers [10.251154683874033]
拡散変換器(DiT)は画像生成において例外的な性能を示したが、その大きなパラメータ数は計算コストが高い。
提案するPlugable Pruning with Contiguous Layer Distillation (PPCL)は,DiTアーキテクチャ用に設計されたフレキシブルな構造化プルーニングフレームワークである。
論文 参考訳(メタデータ) (2025-11-20T08:53:07Z) - ScaleDiff: Higher-Resolution Image Synthesis via Efficient and Model-Agnostic Diffusion [7.233066974580282]
テキストと画像の拡散モデルは、トレーニングの解像度を超える画像を生成する際に、しばしば劣化した性能を示す。
最近のトレーニングフリーな手法は、この制限を緩和することができるが、かなりの計算を必要とする場合や、最近の拡散変換器モデルと互換性がない場合が多い。
本研究では,事前学習した拡散モデルの解法を,追加の訓練なしに拡張するためのモデル非依存かつ高効率なフレームワークであるScaleDiffを提案する。
論文 参考訳(メタデータ) (2025-10-29T17:17:32Z) - Diffusion Transformers with Representation Autoencoders [35.43400861279246]
事前学習された自己エンコーダが拡散過程の遅延空間に画素をマッピングする潜在生成モデリングは拡散変換器(DiT)の標準戦略となっている。
ほとんどのDiTはオリジナルのVAEエンコーダに依存しており、いくつかの制限が課されている。
本研究では、VAEをトレーニングされたデコーダと組み合わせた事前訓練された表現エンコーダに置き換え、Representation Autoencoders (RAE) と呼ぶものを形成する。
論文 参考訳(メタデータ) (2025-10-13T17:51:39Z) - Policy Optimized Text-to-Image Pipeline Design [73.9633527029941]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - In-Context LoRA for Diffusion Transformers [49.288489286276146]
テキスト・ツー・イメージのDiTは、チューニングなしでテキスト内生成を効果的に行うことができることを示す。
我々は、我々のモデル In-Context LoRA (IC-LoRA) を命名する。
我々のパイプラインは、プロンプトにより忠実な高忠実度画像セットを生成する。
論文 参考訳(メタデータ) (2024-10-31T09:45:00Z) - Dual-former: Hybrid Self-attention Transformer for Efficient Image
Restoration [6.611849560359801]
本稿では,自己アテンションモジュールの強力なグローバルモデリング能力と,全体のアーキテクチャにおける畳み込みの局所モデリング能力を組み合わせたDual-formerを提案する。
実験により、Dual-formerはIndoorデータセットの最先端MAXIM法よりも1.91dBのゲインを達成していることが示された。
単一画像のデライニングでは、わずか21.5%のGFLOPを持つ5つのデータセットの平均結果に対して、SOTA法を0.1dB PSNRで上回っている。
論文 参考訳(メタデータ) (2022-10-03T16:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。