Fugu-MT 論文翻訳(概要): Diffusion Models Without Attention

論文の概要: Diffusion Models Without Attention

arxiv url: http://arxiv.org/abs/2311.18257v1
Date: Thu, 30 Nov 2023 05:15:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 17:52:23.032277
Title: Diffusion Models Without Attention
Title（参考訳）: 注意のない拡散モデル
Authors: Jing Nathan Yan, Jiatao Gu, Alexander M. Rush
Abstract要約: Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
参考スコア（独自算出の注目度）: 110.5623058129782
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent advancements in high-fidelity image generation, Denoising Diffusion Probabilistic Models (DDPMs) have emerged as a key player. However, their application at high resolutions presents significant computational challenges. Current methods, such as patchifying, expedite processes in UNet and Transformer architectures but at the expense of representational capacity. Addressing this, we introduce the Diffusion State Space Model (DiffuSSM), an architecture that supplants attention mechanisms with a more scalable state space model backbone. This approach effectively handles higher resolutions without resorting to global compression, thus preserving detailed image representation throughout the diffusion process. Our focus on FLOP-efficient architectures in diffusion training marks a significant step forward. Comprehensive evaluations on both ImageNet and LSUN datasets at two resolutions demonstrate that DiffuSSMs are on par or even outperform existing diffusion models with attention modules in FID and Inception Score metrics while significantly reducing total FLOP usage.
Abstract（参考訳）: 近年,高忠実度画像生成の進歩に伴い,Deffusion Probabilistic Models (DDPM) がキープレーヤーとして登場している。しかし、高分解能での応用は、重要な計算上の課題を示す。現在の方法では、UNetやTransformerアーキテクチャのプロセスは高速だが、表現能力は犠牲になっている。そこで我々は,よりスケーラブルな状態空間モデルバックボーンを用いた注意機構を代替するアーキテクチャである拡散状態空間モデル(diffussm)を提案する。このアプローチは,グローバル圧縮に頼らずに高分解能を効果的に処理し,拡散過程全体にわたって詳細な画像表現を保持する。拡散トレーニングにおけるフロップ効率の高いアーキテクチャにフォーカスすることは、大きな前進である。 ImageNetとLSUNのデータセットを2つの解像度で総合的に評価すると、DiffuSSMはFIDとInception Scoreメトリクスの注意モジュールを持つ既存の拡散モデルと同等の、あるいは超越している。

関連論文リスト

One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion [63.609399000712905]
スケールした解像度での推論は反復的なパターンと構造的歪みをもたらす。これらの問題を解決するために組み合わせた2つの単純なモジュールを提案する。我々の手法はファム拡散と呼ばれ、任意の潜在拡散モデルにシームレスに統合でき、追加の訓練を必要としない。
論文参考訳（メタデータ） (2024-11-27T17:51:44Z)
Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する既存の二項化法では性能が著しく低下する。画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文参考訳（メタデータ） (2024-06-09T10:30:25Z)
DeeDSR: Towards Real-World Image Super-Resolution via Degradation-Aware Stable Diffusion [27.52552274944687]
低解像度画像のコンテンツや劣化を認識する拡散モデルの能力を高める新しい2段階の劣化認識フレームワークを提案する。最初の段階では、教師なしのコントラスト学習を用いて画像劣化の表現を得る。第2段階では、分解対応モジュールを単純化されたControlNetに統合し、様々な劣化への柔軟な適応を可能にします。
論文参考訳（メタデータ） (2024-03-31T12:07:04Z)
LLDiffusion: Learning Degradation Representations in Diffusion Models for Low-Light Image Enhancement [118.83316133601319]
現在の低照度画像強調(LLIE)の深層学習法は、通常、ペア化されたデータから学んだピクセルワイドマッピングに依存している。本稿では,拡散モデルを用いたLLIEの劣化認識学習手法を提案する。
論文参考訳（メタデータ） (2023-07-27T07:22:51Z)
Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文参考訳（メタデータ） (2023-06-01T03:08:28Z)
Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。本稿では,階層型統合拡散モデル(HI-Diff)を提案する。人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文参考訳（メタデータ） (2023-05-22T12:18:20Z)
Implicit Diffusion Models for Continuous Super-Resolution [65.45848137914592]
本稿では,高忠実度連続画像超解像のためのインプリシティ拡散モデル(IDM)を提案する。 IDMは暗黙のニューラル表現とデノナイジング拡散モデルを統合されたエンドツーエンドフレームワークに統合する。スケーリング係数は分解能を調節し、最終出力におけるLR情報と生成された特徴の比率を変調する。
論文参考訳（メタデータ） (2023-03-29T07:02:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。