論文の概要: Memory-Efficient Fine-Tuning Diffusion Transformers via Dynamic Patch Sampling and Block Skipping
- arxiv url: http://arxiv.org/abs/2603.20755v1
- Date: Sat, 21 Mar 2026 11:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.070667
- Title: Memory-Efficient Fine-Tuning Diffusion Transformers via Dynamic Patch Sampling and Block Skipping
- Title(参考訳): 動的パッチサンプリングとブロックスキッピングによるメモリ効率の良い微細調整拡散変換器
- Authors: Sunghyun Park, Jeongho Kim, Hyoungwoo Park, Debasmit Das, Sungrack Yun, Munawar Hayat, Jaegul Choo, Fatih Porikli, Seokeon Choi,
- Abstract要約: Diffusion Transformer (DiTs) はテキスト・ツー・イメージ(T2I)の生成品質を大幅に向上させ、高品質なパーソナライズされたコンテンツ作成を可能にした。
時間ステップ対応動的パッチサンプリングとブロックスキップを統合した,メモリ効率の良い細調整フレームワークDiT-BlockSkipを提案する。
提案手法は,メモリ使用量を大幅に削減しつつ,質的,定量的に競合するパーソナライズ性能を実現する。
- 参考スコア(独自算出の注目度): 95.91466630940084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) have significantly enhanced text-to-image (T2I) generation quality, enabling high-quality personalized content creation. However, fine-tuning these models requires substantial computational complexity and memory, limiting practical deployment under resource constraints. To tackle these challenges, we propose a memory-efficient fine-tuning framework called DiT-BlockSkip, integrating timestep-aware dynamic patch sampling and block skipping by precomputing residual features. Our dynamic patch sampling strategy adjusts patch sizes based on the diffusion timestep, then resizes the cropped patches to a fixed lower resolution. This approach reduces forward & backward memory usage while allowing the model to capture global structures at higher timesteps and fine-grained details at lower timesteps. The block skipping mechanism selectively fine-tunes essential transformer blocks and precomputes residual features for the skipped blocks, significantly reducing training memory. To identify vital blocks for personalization, we introduce a block selection strategy based on cross-attention masking. Evaluations demonstrate that our approach achieves competitive personalization performance qualitatively and quantitatively, while reducing memory usage substantially, moving toward on-device feasibility (e.g., smartphones, IoT devices) for large-scale diffusion transformers.
- Abstract(参考訳): Diffusion Transformer (DiTs) はテキスト・ツー・イメージ(T2I)の生成品質を大幅に向上させ、高品質なパーソナライズされたコンテンツ作成を可能にした。
しかし、これらのモデルの微調整には相当な計算複雑性とメモリが必要であり、リソース制約下での実際の展開を制限する。
これらの課題に対処するため,Dit-BlockSkipと呼ばれるメモリ効率の高い微細調整フレームワークを提案する。
我々の動的パッチサンプリング戦略は、拡散時間ステップに基づいてパッチサイズを調整し、収穫したパッチを固定された低解像度に再サイズする。
このアプローチは、モデルがより高い時間ステップでグローバル構造をキャプチャし、より詳細な詳細を低い時間ステップで詳細化しながら、前向きと後向きのメモリ使用量を削減します。
ブロックスキップ機構は、選択的に重要な変圧器ブロックを微細化し、スキップされたブロックの残像をプリコンプリートし、トレーニングメモリを大幅に低減する。
パーソナライズのための重要なブロックを特定するために,クロスアテンションマスキングに基づくブロック選択戦略を導入する。
提案手法は,大規模な拡散トランスフォーマのためのデバイス上の実現可能性(スマートフォン,IoTデバイスなど)に向けて,メモリ使用量を大幅に削減しながら,質的かつ定量的に競合パーソナライズ性能を実現することを示す。
関連論文リスト
- 6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models [32.45415555978057]
拡散変換器はビデオの生成において顕著な能力を示した。
しかし、それらの実践的な展開は、高いメモリ使用量と計算コストに制約されている。
トレーニング後の量子化は、メモリ使用量を減らし、速度を向上する実用的な方法を提供する。
論文 参考訳(メタデータ) (2026-03-19T10:45:11Z) - EdgeFlex-Transformer: Transformer Inference for Edge Devices [2.1130318406254074]
視覚変換器(ViT)の圧縮・高速化を目的とした軽量で効果的な多段最適化パイプラインを提案する。
本手法は,アクティベーションプロファイリング,メモリ対応プルーニング,選択的混合精度実行,アクティベーション対応量子化(AWQ)を組み合わせることで,コストのかかるリトレーニングやタスク固有の微調整を必要とせずに,モデルのメモリフットプリントを削減する。
CIFAR-10の実験では、完全に最適化されたモデルはピークメモリ使用量の76%削減と6倍のレイテンシを実現し、元のFP32ベースラインと比較して精度を維持または改善している。
論文 参考訳(メタデータ) (2025-12-17T21:45:12Z) - Sortblock: Similarity-Aware Feature Reuse for Diffusion Model [9.749736545966694]
Diffusion Transformer (DiTs) は顕著な生成能を示した。
DiTのシーケンシャルな denoising プロセスは、高い推論遅延をもたらす。
トレーニング不要な推論アクセラレーションフレームワークであるSoltblockを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:10:54Z) - Hollowed Net for On-Device Personalization of Text-to-Image Diffusion Models [51.3915762595891]
本稿では、デバイス上での主観的生成のための効率的なLoRAに基づくパーソナライズ手法を提案する。
提案手法はHollowed Netと呼ばれ,拡散U-Netのアーキテクチャを変更することにより,微調整時のメモリ効率を向上させる。
論文 参考訳(メタデータ) (2024-11-02T08:42:48Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - Accurate Block Quantization in LLMs with Outliers [0.6138671548064355]
極大規模LLMの推理需要はここ数カ月で大きく伸びている。
この問題は処理中のシーケンスの長さが爆発的に増加することで増大する。
重みとアクティベーションの両方の正確な量子化を可能にする様々な量子化技術が提案されている。
論文 参考訳(メタデータ) (2024-03-29T12:15:06Z) - Block Selective Reprogramming for On-device Training of Vision Transformers [12.118303034660531]
本稿では,事前学習したモデルのブロック全体のごく一部のみを微調整するブロック選択型再プログラミング(BSR)を提案する。
既存の代替手法と比較して、トレーニングメモリを最大1.4倍、計算コストを最大2倍に削減する。
論文 参考訳(メタデータ) (2024-03-25T08:41:01Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。