Fugu-MT 論文翻訳(概要): Token Merging for Fast Stable Diffusion

論文の概要: Token Merging for Fast Stable Diffusion

arxiv url: http://arxiv.org/abs/2303.17604v1
Date: Thu, 30 Mar 2023 17:59:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-31 12:14:43.514384
Title: Token Merging for Fast Stable Diffusion
Title（参考訳）: 高速安定拡散のためのトークンマージ
Authors: Daniel Bolya, Judy Hoffman
Abstract要約: 我々は、冗長トークンをマージすることで、生成した画像の自然な冗長性を利用して拡散モデルを高速化する。安定拡散のためのToMeは、既存の安定拡散モデルにおけるトークンの数を最大60%削減できる。この過程で、画像生成を最大2倍高速化し、メモリ消費を最大5.6倍削減する。
参考スコア（独自算出の注目度）: 15.319907532723517
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The landscape of image generation has been forever changed by open vocabulary diffusion models. However, at their core these models use transformers, which makes generation slow. Better implementations to increase the throughput of these transformers have emerged, but they still evaluate the entire model. In this paper, we instead speed up diffusion models by exploiting natural redundancy in generated images by merging redundant tokens. After making some diffusion-specific improvements to Token Merging (ToMe), our ToMe for Stable Diffusion can reduce the number of tokens in an existing Stable Diffusion model by up to 60% while still producing high quality images without any extra training. In the process, we speed up image generation by up to 2x and reduce memory consumption by up to 5.6x. Furthermore, this speed-up stacks with efficient implementations such as xFormers, minimally impacting quality while being up to 5.4x faster for large images. Code is available at https://github.com/dbolya/tomesd.
Abstract（参考訳）: 画像生成の展望は、オープン語彙拡散モデルによって永遠に変化してきた。しかし、コアとなるモデルではトランスフォーマーを使用し、生成が遅くなる。これらの変換器のスループットを向上させるためのより良い実装が登場したが、それでもモデル全体を評価する。本稿では,冗長トークンをマージすることで生成画像の自然冗長性を生かして拡散モデルを高速化する。 Token Merging(ToMe)にいくつかの拡散特異的な改善を加えた後、私たちのToMe for Stable Diffusionは、既存のStable Diffusionモデルにおけるトークンの数を最大60%削減できます。その過程で、画像生成を最大2倍高速化し、メモリ消費を最大5.6倍削減する。さらに、このスピードアップスタックにはxFormersのような効率的な実装があり、大きな画像では最大5.4倍の速度で品質に最小限の影響を与えている。コードはhttps://github.com/dbolya/tomesdで入手できる。

関連論文リスト

DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling [53.33281984430122]
Diffusion Transformer (DiT) は、視覚生成のための有望な拡散モデルであるが、計算オーバーヘッドが大きい。本稿では,効率的かつ表現力のある拡散モデルを構築するための代替ビルディングブロックとして,畳み込みを再考する。標準のConvNetモジュールから完全に構築された拡散モデルのファミリであるDiffusion ConvNet(DiCo)を紹介する。
論文参考訳（メタデータ） (2025-05-16T12:54:04Z)
When Worse is Better: Navigating the compression-generation tradeoff in visual tokenization [92.17160980120404]
本稿では,第2段階のモデル手法の知識を用いて,第1段階の潜伏者に有用な帰納バイアスを埋め込むCausally Regularized Tokenization(CRT)を紹介する。 CRTは、ステージ1の再構築性能を悪化させるが、ステージ2の生成性能は、トークンをモデル化しやすくすることで向上する。最先端の離散自己回帰画像ネット生成(2.18 FID)と画像あたりのトークンの半分以下とをマッチングする。
論文参考訳（メタデータ） (2024-12-20T20:32:02Z)
Open-Source Acceleration of Stable-Diffusion.cpp Deployable on All Devices [28.774856591172902]
安定拡散(stable-diffusion) Turbo (Sd) は拡散モデルを加速する効率的な推論フレームワークとして現れる。本研究では、Winogradアルゴリズムを利用して2次元畳み込み処理を高速化するSdの最適化版を提案する。我々は、個々の畳み込み層に対して最大2.76倍のスピードアップと、全体の画像生成プロセスにおいて最大4.79倍の速度アップを示す。
論文参考訳（メタデータ） (2024-12-08T02:27:17Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
FORA: Fast-Forward Caching in Diffusion Transformer Acceleration [39.51519525071639]
拡散変換器(DiT)は、高品質な画像やビデオを生成するための事実上の選択肢となっている。 Fast-FORward Caching (FORA) は拡散過程の反復特性を利用してDiTを加速するように設計されている。
論文参考訳（メタデータ） (2024-07-01T16:14:37Z)
An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。 TiTokは最先端のアプローチと競合するパフォーマンスを実現している。我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文参考訳（メタデータ） (2024-06-11T17:59:56Z)
Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation [2.693650249239372]
本稿では,Flash拡散モデルの生成を高速化する,効率的で高速で多用途な蒸留法を提案する。この手法は、COCO2014とCOCO 2017データセット上の画像生成のために、FIDとCLIP-Scoreの観点から最先端のパフォーマンスに達する。この手法の汎用性は、テキスト・トゥ・イメージ、インペイント、フェイス・スワッピング、スーパーレゾリューション、UNetベースのデノイザ(SD1.5, SDXL)やDiT(Pixart-$alpha$)などの異なるバックボーンの使用など、いくつかのタスクにまたがる。
論文参考訳（メタデータ） (2024-06-04T14:23:27Z)
SparseDM: Toward Sparse Efficient Diffusion Models [20.783533300147866]
拡散モデルの展開効率を向上させるために,改良されたストレートトラフ推定器に基づく手法を提案する。トランスフォーマーとUNetを用いた拡散モデルによる実験結果から,FIDを維持しながらMACを50%削減できることが判明した。
論文参考訳（メタデータ） (2024-04-16T10:31:06Z)
Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文参考訳（メタデータ） (2023-12-06T00:51:38Z)
Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。 ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文参考訳（メタデータ） (2023-06-15T17:38:48Z)
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文参考訳（メタデータ） (2023-06-01T17:59:25Z)
Patch Diffusion: Faster and More Data-Efficient Training of Diffusion Models [166.64847903649598]
汎用的なパッチワイドトレーニングフレームワークであるPatch Diffusionを提案する。 Patch Diffusionは、データ効率を改善しながら、トレーニング時間を大幅に削減する。我々は最先端のベンチマークと一致して優れたFIDスコアを得る。
論文参考訳（メタデータ） (2023-04-25T02:35:54Z)
Lformer: Text-to-Image Generation with L-shape Block Parallel Decoding [111.16221796950126]
半自己回帰型テキスト・画像生成モデルであるLformerを提案する。画像トークンの2次元構造を利用することで、Lformerは既存のTransformerベースの手法よりも高速に実現できる。 Lformerは、微調整を必要とせずに画像を編集できる。
論文参考訳（メタデータ） (2023-03-07T11:10:22Z)
Wavelet Diffusion Models are fast and scalable Image Generators [3.222802562733787]
拡散モデルは高忠実度画像生成のための強力な解であり、多くの状況においてGANを超える。最近のDiffusionGAN法は、サンプリングステップの数を数千から数に減らして、モデルの実行時間を著しく短縮するが、その速度はGANよりもかなり遅れている。本稿では,新しいウェーブレット拡散方式を提案することにより,速度ギャップを低減することを目的とする。我々は、ウェーブレット分解により、画像と特徴レベルの両方から低周波数成分を抽出し、これらの成分を適応的に処理し、良好な生成品質を維持しながら高速に処理する。
論文参考訳（メタデータ） (2022-11-29T12:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。