Fugu-MT 論文翻訳(概要): Elucidating the Design Space of Diffusion-Based Generative Models

論文の概要: Elucidating the Design Space of Diffusion-Based Generative Models

arxiv url: http://arxiv.org/abs/2206.00364v1
Date: Wed, 1 Jun 2022 10:03:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-02 15:53:57.061148
Title: Elucidating the Design Space of Diffusion-Based Generative Models
Title（参考訳）: 拡散に基づく生成モデルの設計空間の解明
Authors: Tero Karras, Miika Aittala, Timo Aila, Samuli Laine
Abstract要約: 具体的な設計選択を明確に分離する設計空間を提示する。これにより、サンプリングおよびトレーニングプロセスとスコアネットワークのプレコンディショニングの両方にいくつかの変更が特定できます。この改良により, CIFAR-10では1.79, 非条件では1.97, 非条件では1.79の新たなFIDが得られた。
参考スコア（独自算出の注目度）: 37.643953493556765
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We argue that the theory and practice of diffusion-based generative models are currently unnecessarily convoluted and seek to remedy the situation by presenting a design space that clearly separates the concrete design choices. This lets us identify several changes to both the sampling and training processes, as well as preconditioning of the score networks. Together, our improvements yield new state-of-the-art FID of 1.79 for CIFAR-10 in a class-conditional setting and 1.97 in an unconditional setting, with much faster sampling (35 network evaluations per image) than prior designs. To further demonstrate their modular nature, we show that our design changes dramatically improve both the efficiency and quality obtainable with pre-trained score networks from previous work, including improving the FID of an existing ImageNet-64 model from 2.07 to near-SOTA 1.55.
Abstract（参考訳）: 拡散に基づく生成モデルの理論と実践は、現在不要に畳み込まれており、具体的な設計の選択を明確に分離した設計空間を提示して状況を改善することを目指している。これにより、サンプリングおよびトレーニングプロセスとスコアネットワークのプレコンディショニングの両方にいくつかの変更が特定できます。その結果,CIFAR-10では1.79FID,非条件設定では1.97FID,以前の設計よりはるかに高速なサンプリング(画像毎の35ネットワーク評価)が可能となった。さらにモジュール性を示すために,既存のimagenet-64モデルのfidを2.07から約1.55まで改善することを含め,事前学習したスコアネットワークで得られる効率と品質を劇的に改善した。

関連論文リスト

Inductive Moment Matching [80.96561758341664]
Inductive Moment Matching (IMM) は1段階または数段階のサンプリングのための新しい生成モデルである。 IMMはImageNet-256x256上の拡散モデルを8ステップのみを用いて1.99 FIDで上回り、CIFAR-10上で1.98の最先端の2ステップFIDをスクラッチから訓練したモデルで達成する。
論文参考訳（メタデータ） (2025-03-10T17:37:39Z)
Masked Autoencoders Are Effective Tokenizers for Diffusion Models [56.08109308294133]
MAETokは自己エンコーダであり、再構築の忠実さを維持しながら意味的にリッチな潜在空間を学習する。 MaETokは1.69のgFIDで76倍高速トレーニングが可能で、512x512世代で31倍高い推論スループットを実現している。
論文参考訳（メタデータ） (2025-02-05T18:42:04Z)
Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文参考訳（メタデータ） (2025-01-02T18:59:40Z)
Stable Consistency Tuning: Understanding and Improving Consistency Models [40.2712218203989]
拡散モデルは、より優れた生成品質を達成するが、復調の反復的な性質により、生成速度が遅くなる。新しいジェネレーティブファミリーである一貫性モデルは、非常に高速なサンプリングで競争性能を達成する。本稿では,拡散モデルの分解過程をマルコフ決定過程(MDP)としてモデル化し,時間差分学習(TD)による値推定としてフレーミング一貫性モデルのトレーニングを提案する。
論文参考訳（メタデータ） (2024-10-24T17:55:52Z)
Rethinking Iterative Stereo Matching from Diffusion Bridge Model Perspective [0.0]
本稿では,拡散モデルを反復最適化プロセスに組み込む新しいトレーニング手法を提案する。我々のモデルはScene Flowデータセットで第1位であり、競合する手法と比較して7%以上の改善が達成されている。
論文参考訳（メタデータ） (2024-04-13T17:31:11Z)
Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文参考訳（メタデータ） (2024-03-21T02:33:37Z)
Diffusion Model for Data-Driven Black-Box Optimization [54.25693582870226]
我々は、強力な生成AI技術である拡散モデルに注目し、ブラックボックス最適化の可能性について検討する。本研究では,1)実数値報酬関数のノイズ測定と,2)対比較に基づく人間の嗜好の2種類のラベルについて検討する。提案手法は,設計最適化問題を条件付きサンプリング問題に再構成し,拡散モデルのパワーを有効活用する。
論文参考訳（メタデータ） (2024-03-20T00:41:12Z)
Improving Diffusion-Based Generative Models via Approximated Optimal Transport [41.25847212384836]
本稿では,拡散モデルを用いた新しい学習手法である近似最適輸送手法を紹介する。トレーニングにAOTを用いることで,画像品質の向上とサンプリングステップの短縮を実現した。
論文参考訳（メタデータ） (2024-03-08T05:43:00Z)
Analyzing and Improving the Training Dynamics of Diffusion Models [36.37845647984578]
一般的なADM拡散モデルアーキテクチャにおいて、不均一かつ非効率なトレーニングの原因をいくつか特定し、修正する。この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。
論文参考訳（メタデータ） (2023-12-05T11:55:47Z)
Systematic Architectural Design of Scale Transformed Attention Condenser DNNs via Multi-Scale Class Representational Response Similarity Analysis [93.0013343535411]
マルチスケールクラス表現応答類似性分析(ClassRepSim)と呼ばれる新しいタイプの分析法を提案する。 ResNetスタイルのアーキテクチャにSTACモジュールを追加すると、最大1.6%の精度が向上することを示す。 ClassRepSim分析の結果は、STACモジュールの効果的なパラメータ化を選択するために利用することができ、競争性能が向上する。
論文参考訳（メタデータ） (2023-06-16T18:29:26Z)
ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文参考訳（メタデータ） (2023-01-02T18:59:31Z)
Improved Consistency Regularization for GANs [102.17007700413326]
本稿では,その性能向上を目的とした整合性正規化手法について,いくつかの改良を加えて検討する。 CIFAR-10とCelebAの無条件画像合成では、様々なGANアーキテクチャ上で最もよく知られたFIDスコアが得られる。 ImageNet-2012では、この手法をオリジナルのBigGANモデルに適用し、FIDを6.66から5.38に改善する。
論文参考訳（メタデータ） (2020-02-11T22:53:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。