Fugu-MT 論文翻訳(概要): ToDo: Token Downsampling for Efficient Generation of High-Resolution Images

論文の概要: ToDo: Token Downsampling for Efficient Generation of High-Resolution Images

arxiv url: http://arxiv.org/abs/2402.13573v1
Date: Wed, 21 Feb 2024 07:10:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 16:45:38.407585
Title: ToDo: Token Downsampling for Efficient Generation of High-Resolution Images
Title（参考訳）: ToDo:高解像度画像の効率的な生成のためのToken Downsampling
Authors: Ethan Smith, Nayan Saxena, Aninda Saha
Abstract要約: 本稿では、しばしば冗長な特徴を含む生成画像モデルにおける高密度注意の重要性を考察し、スペーサーの注意機構に適合させる。 2048x2048のような高分解能では最大2倍、最大4.5倍の安定拡散推論を加速するために、キーと値トークンのトークンダウンサンプリングに依存する新しいトレーニングフリーなToDoを提案する。
参考スコア（独自算出の注目度）: 5.859142754357854
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Attention mechanism has been crucial for image diffusion models, however, their quadratic computational complexity limits the sizes of images we can process within reasonable time and memory constraints. This paper investigates the importance of dense attention in generative image models, which often contain redundant features, making them suitable for sparser attention mechanisms. We propose a novel training-free method ToDo that relies on token downsampling of key and value tokens to accelerate Stable Diffusion inference by up to 2x for common sizes and up to 4.5x or more for high resolutions like 2048x2048. We demonstrate that our approach outperforms previous methods in balancing efficient throughput and fidelity.
Abstract（参考訳）: 注意機構は画像拡散モデルにおいて重要であるが、その2次計算複雑性は、適切な時間とメモリ制約で処理できる画像のサイズを制限する。本稿では、しばしば冗長な特徴を含む生成画像モデルにおける高密度注意の重要性を考察し、スペーサーの注意機構に適合させる。本稿では,2048x2048等の高分解能では最大2倍,最大4.5倍の安定拡散推論を高速化するために,鍵および値トークンのトークンダウンサンプリングに依存する新しいトレーニングフリー方式todoを提案する。提案手法は,効率のよいスループットと忠実さのバランスをとる上で,従来の手法よりも優れていることを示す。

関連論文リスト

PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion [8.226158351984184]
我々は,実用的な高解像度テキスト・画像生成のための最初のチューニング不要フレームワークであるPixelRushを紹介する。提案手法は,確立されたパッチベースの推論パラダイムに基づいているが,複数の逆転・再生サイクルの必要性を排除している。 PixelRushは例外的な効率を提供し、最先端のメソッドよりも10$times$から35$times$のスピードアップを表す約20秒で4Kイメージを生成する。
論文参考訳（メタデータ） (2026-02-13T09:54:27Z)
SFTok: Bridging the Performance Gap in Discrete Tokenizers [72.9996757048065]
複数ステップの反復機構を組み込んだ離散トークン化機構である textbfSFTok を提案する。画像当たり64トークンの高速圧縮速度で、SFTokはImageNetの最先端の再構築品質を達成する。
論文参考訳（メタデータ） (2025-12-18T18:59:04Z)
Group Diffusion: Enhancing Image Generation by Unlocking Cross-Sample Collaboration [88.94434023253872]
画像間で共有するアテンション機構をアンロックするグループ拡散を提案する。グループのサイズが大きくなれば、より強力なクロスサンプルの注意と、より優れた生成品質が得られる。本研究は, クロスサンプル推論を, 生成モデリングの有効な, 未探索のメカニズムとして明らかにした。
論文参考訳（メタデータ） (2025-12-11T18:59:55Z)
InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis [51.81849724354083]
現在の拡散モデルでは、解像度で計算要求が2倍に増加し、4K画像生成が100秒以上遅れる。本稿では, 任意の解像度画像を1ステップ生成器を用いて, コンパクトなラテントで復号する手法を提案する。 InfGenは、4K画像生成時間を10秒未満にカットしながら、任意の高解像度の時代に多くのモデルを改善することができる。
論文参考訳（メタデータ） (2025-09-12T17:48:57Z)
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。 CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。 CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文参考訳（メタデータ） (2024-11-26T15:13:15Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。 SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用することにより、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。 DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文参考訳（メタデータ） (2024-10-14T02:49:23Z)
DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文参考訳（メタデータ） (2024-06-26T16:10:31Z)
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文参考訳（メタデータ） (2024-06-13T17:59:58Z)
Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文参考訳（メタデータ） (2024-03-17T01:27:00Z)
QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-02-06T03:39:44Z)
Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文参考訳（メタデータ） (2023-11-30T05:15:35Z)
HiDiffusion: Unlocking Higher-Resolution Creativity and Efficiency in Pretrained Diffusion Models [13.68666823175341]
HiDiffusionは、画像合成のためのチューニング不要な高解像度フレームワークである。 RAU-Netはオブジェクト重複を解決するために特徴マップサイズを動的に調整する。 MSW-MSAは、計算量を減らすために最適化されたウィンドウアテンションを利用する。
論文参考訳（メタデータ） (2023-11-29T11:01:38Z)
ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文参考訳（メタデータ） (2023-10-11T17:52:39Z)
Wuerstchen: An Efficient Architecture for Large-Scale Text-to-Image Diffusion Models [6.821399706256863]
W"urstchen"は、競争性能と前例のない費用対効果を組み合わせたテキスト対画像合成の新しいアーキテクチャである。我々の研究の重要な貢献は、詳細だが非常にコンパクトなセマンティックイメージ表現を学習する潜伏拡散技術を開発することである。
論文参考訳（メタデータ） (2023-06-01T13:00:53Z)
Projected GANs Converge Faster [50.23237734403834]
GAN(Generative Adversarial Networks)は高品質な画像を生成するが、訓練は難しい。生成したサンプルと実際のサンプルを固定された事前訓練された特徴空間に投影することで、これらの問題に大きく取り組みます。我々の投影GANは画像品質、サンプル効率、収束速度を改善する。
論文参考訳（メタデータ） (2021-11-01T15:11:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。