論文の概要: Glance: Accelerating Diffusion Models with 1 Sample
- arxiv url: http://arxiv.org/abs/2512.02899v1
- Date: Tue, 02 Dec 2025 16:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.958285
- Title: Glance: Accelerating Diffusion Models with 1 Sample
- Title(参考訳): Glance: 1つのサンプルで拡散モデルを加速する
- Authors: Zhuobai Dong, Rui Zhao, Songjie Wu, Junchao Yi, Linjie Li, Zhengyuan Yang, Lijuan Wang, Alex Jinpeng Wang,
- Abstract要約: 拡散モデルは画像生成において顕著な成功を収めているが、その展開は計算コストの重さに制約されている。
小型学生モデルの訓練による余分なステップを省略する低段蒸留の試み
このフェーズアウェア戦略を、スローかつ高速なデノゲーションフェーズを専門とする2人の専門家によってインスタンス化します。
驚くべきことに、学生モデルの再訓練に多大な労力を費やす代わりに、軽量のLoRAアダプタでベースモデルを装備するだけで、効率的な加速と強力な一般化が達成できる。
- 参考スコア(独自算出の注目度): 84.0326016760497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved remarkable success in image generation, yet their deployment remains constrained by the heavy computational cost and the need for numerous inference steps. Previous efforts on fewer-step distillation attempt to skip redundant steps by training compact student models, yet they often suffer from heavy retraining costs and degraded generalization. In this work, we take a different perspective: we accelerate smartly, not evenly, applying smaller speedups to early semantic stages and larger ones to later redundant phases. We instantiate this phase-aware strategy with two experts that specialize in slow and fast denoising phases. Surprisingly, instead of investing massive effort in retraining student models, we find that simply equipping the base model with lightweight LoRA adapters achieves both efficient acceleration and strong generalization. We refer to these two adapters as Slow-LoRA and Fast-LoRA. Through extensive experiments, our method achieves up to 5 acceleration over the base model while maintaining comparable visual quality across diverse benchmarks. Remarkably, the LoRA experts are trained with only 1 samples on a single V100 within one hour, yet the resulting models generalize strongly on unseen prompts.
- Abstract(参考訳): 拡散モデルは画像生成において顕著な成功を収めているが、その展開は計算コストと多くの推論ステップの必要性によって制約されている。
より少ない段階の蒸留の試みは、コンパクトな学生モデルを訓練することで余分なステップを省略する試みであったが、しばしば過度な再訓練コストと一般化の低下に悩まされる。
この研究では、我々は、スマートに加速し、均等ではなく、より小さなスピードアップを初期のセマンティックステージに適用し、より大きなものを後の冗長フェーズに適用する、という見方を異なる視点で捉えています。
このフェーズアウェア戦略を、スローかつ高速なデノゲーションフェーズを専門とする2人の専門家によってインスタンス化します。
驚くべきことに、学生モデルの再訓練に多大な労力を費やす代わりに、軽量なLoRAアダプタでベースモデルを装備するだけで、効率的な加速と強力な一般化が達成できる。
これら2つのアダプタをSlow-LoRAとFast-LoRAと呼ぶ。
広範にわたる実験により,提案手法はベースモデル上で最大5つのアクセラレーションを実現し,多様なベンチマークにおいて同等の視覚的品質を維持した。
驚くべきことに、LoRAの専門家は1時間以内に1つのV100で1つのサンプルでトレーニングを受けていますが、結果として得られたモデルは目に見えないプロンプトで強く一般化します。
関連論文リスト
- Accelerating Inference of Masked Image Generators via Reinforcement Learning [41.30941040845135]
より少ないステップで高品質な画像を生成するために、事前訓練されたMGMを高速化する新しいパラダイムであるSpeed-RLを提案する。
提案手法は,画像品質を同等に保ちながら,ベースモデルを3倍の速度で高速化できることを示した。
論文 参考訳(メタデータ) (2025-11-30T21:28:00Z) - Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning [32.32567390728913]
拡散モデル(Diffusion Models)は、生成モデルの主要なクラスとして登場した。
タイムステップ蒸留は、生成を加速する有望な技術であるが、広範囲の訓練を必要とし、画質の劣化につながることが多い。
蒸留と共同RLによる精製による高速収束を実現する新しいフレームワークであるFlash-DMDを紹介する。
論文 参考訳(メタデータ) (2025-11-25T17:47:11Z) - CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers [72.23291099555459]
拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。
本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。
ChoRDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを実現し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-07-21T05:48:47Z) - Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。
我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。
モデルにMixture of Experts(MoEs)を組み込むことで、モデルがモダリティ固有の重みを学習し、性能を著しく向上できることを示す。
論文 参考訳(メタデータ) (2025-04-10T17:57:28Z) - CDM-QTA: Quantized Training Acceleration for Efficient LoRA Fine-Tuning of Diffusion Model [4.525120888093971]
カスタムアプリケーションのための微調整された大規模な拡散モデルは、かなりのパワーと時間を必要とする。
拡散モデルのローランド適応(LoRA)に特化した新しいトレーニングアクセラレータを開発した。
我々は,高モデル忠実度を維持しつつ,メモリ使用量や消費電力を大幅に削減する。
論文 参考訳(メタデータ) (2025-04-08T22:40:29Z) - Accelerating Training of Transformer-Based Language Models with
Progressive Layer Dropping [24.547833264405355]
提案手法は, サンプルあたり平均24%の時間短縮を実現し, プレトレーニングをベースラインの2.5倍の速度で行うことができる。
トレーニング済みのモデルでは,より高速ながら,強力な知識伝達能力を備え,ベースラインよりも高いGLUEスコアを達成できる。
論文 参考訳(メタデータ) (2020-10-26T06:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。