Fugu-MT 論文翻訳(概要): Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models

論文の概要: Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models

arxiv url: http://arxiv.org/abs/2405.05252v1
Date: Wed, 8 May 2024 17:56:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-09 13:45:01.160114
Title: Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models
Title（参考訳）: 注意駆動学習-拡散モデルの非効率化
Authors: Hongjie Wang, Difan Liu, Yan Kang, Yijun Li, Zhe Lin, Niraj K. Jha, Yuchen Liu,
Abstract要約: 拡散モデル(DM)は高品質で多様な画像を生成する上で優れた性能を示した。既存の作業は主にDM効率を高めるためのトレーニングプロセスを採用している。本稿では,アテンション駆動型トレーニングフリー効率拡散モデル (AT-EDM) フレームワークについて紹介する。
参考スコア（独自算出の注目度）: 29.863953001061635
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion Models (DMs) have exhibited superior performance in generating high-quality and diverse images. However, this exceptional performance comes at the cost of expensive architectural design, particularly due to the attention module heavily used in leading models. Existing works mainly adopt a retraining process to enhance DM efficiency. This is computationally expensive and not very scalable. To this end, we introduce the Attention-driven Training-free Efficient Diffusion Model (AT-EDM) framework that leverages attention maps to perform run-time pruning of redundant tokens, without the need for any retraining. Specifically, for single-denoising-step pruning, we develop a novel ranking algorithm, Generalized Weighted Page Rank (G-WPR), to identify redundant tokens, and a similarity-based recovery method to restore tokens for the convolution operation. In addition, we propose a Denoising-Steps-Aware Pruning (DSAP) approach to adjust the pruning budget across different denoising timesteps for better generation quality. Extensive evaluations show that AT-EDM performs favorably against prior art in terms of efficiency (e.g., 38.8% FLOPs saving and up to 1.53x speed-up over Stable Diffusion XL) while maintaining nearly the same FID and CLIP scores as the full model. Project webpage: https://atedm.github.io.
Abstract（参考訳）: 拡散モデル(DM)は高品質で多様な画像を生成する上で優れた性能を示した。しかし、この例外的なパフォーマンスは、特に主要なモデルで頻繁に使用される注意モジュールのために、高価なアーキテクチャ設計のコストがかかる。既存の作業は主にDM効率を高めるためのトレーニングプロセスを採用している。これは計算コストが高く、スケーラビリティに乏しい。この目的のために,アテンション駆動型トレーニングフリー効率拡散モデル (AT-EDM) フレームワークを導入し,アテンションマップを利用して冗長トークンの実行時のプルーニングを行う。具体的には、単一デノジング段階のプルーニングにおいて、冗長なトークンを識別するための新しいランキングアルゴリズム、G-WPR(Generalized Weighted Page Rank)、および畳み込み操作のためのトークンを復元する類似性に基づく回復法を開発する。さらに、より優れた生成品質を実現するために、異なるデノナイジングタイムステップ間でプルーニング予算を調整するためのDSAP(Denoising-Steps-Aware Pruning)アプローチを提案する。大規模な評価では、AT-EDMは効率性(例えば38.8%のFLOPを節約し、安定拡散XLよりも最大1.53倍のスピードアップ)で先行技術に対して好適に機能し、フルモデルと同じFIDとCLIPスコアを維持している。プロジェクトWebページ: https://atedm.github.io.com

関連論文リスト

Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。 Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文参考訳（メタデータ） (2025-06-24T17:58:02Z)
Multi-Step Guided Diffusion for Image Restoration on Edge Devices: Toward Lightweight Perception in Embodied AI [0.0]
本稿では,画像品質,知覚精度,一般化を著しく向上させる多段階最適化手法を提案する。超分解能およびガウス劣化実験により,ステップ毎の勾配更新の増加はLPIPSとPSNRを最小遅延オーバーヘッドで改善することを示した。我々の発見はMPGDが、ドローンや移動ロボットのような組込みAIエージェントのリアルタイム視覚認識のための軽量でプラグアンドプレイの修復モジュールとしての可能性を強調した。
論文参考訳（メタデータ） (2025-06-08T21:11:25Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。 textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文参考訳（メタデータ） (2024-10-16T08:07:18Z)
PAT: Pruning-Aware Tuning for Large Language Models [19.622152991641045]
大規模言語モデルは言語タスク、特に事前訓練後の教師付き微調整において優れている。伝統的なポストホットプルーニングは、しばしばパフォーマンスを著しく損なう。モデル冗長性を排除するために,Pruning-Aware Tuning(PAT)パラダイムを提案する。
論文参考訳（メタデータ） (2024-08-27T01:04:14Z)
LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-04-18T06:35:37Z)
Progressive Gradient Flow for Robust N:M Sparsity Training in Transformers [15.27677493050638]
N:Mの構造的疎水性は、比較的穏やかなオーバーヘッドと効率の向上の結果、大きな関心を集めている。 N:Mの構造的疎性のためのトレーニングレシピの開発は、主に低疎性領域に焦点を当てている。しかし、これらの手法を用いて訓練されたモデルの性能は、高分離領域に直面すると低下する傾向にある。
論文参考訳（メタデータ） (2024-02-07T10:55:59Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
Not All Steps are Equal: Efficient Generation with Progressive Diffusion Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文参考訳（メタデータ） (2023-12-20T03:32:58Z)
FRDiff : Feature Reuse for Universal Training-free Acceleration of Diffusion Models [16.940023904740585]
拡散モデルに固有の時間的冗長性を活用する高度な加速手法を提案する。時間的類似度の高い特徴マップの再利用は、出力品質を損なうことなく計算資源を節約する新たな機会を開く。
論文参考訳（メタデータ） (2023-12-06T14:24:26Z)
The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文参考訳（メタデータ） (2023-10-31T00:12:14Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)
Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文参考訳（メタデータ） (2020-07-13T16:56:27Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。