論文の概要: Understanding Flatness in Generative Models: Its Role and Benefits
- arxiv url: http://arxiv.org/abs/2503.11078v1
- Date: Fri, 14 Mar 2025 04:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:35.746418
- Title: Understanding Flatness in Generative Models: Its Role and Benefits
- Title(参考訳): 生成モデルにおける平坦性を理解する:その役割とメリット
- Authors: Taehwan Lee, Kyeongkook Seo, Jaejun Yoo, Sung Whan Yoon,
- Abstract要約: 生成モデルにおける損失面平坦性の役割を理論的にも経験的にも検討する。
より平坦なミニマは、対象の事前分布における摂動に対する堅牢性を改善するという理論的主張を確立する。
拡散モデルにおける平坦なミニマは、生成性能も向上するが、ロバスト性も向上することを示した。
- 参考スコア(独自算出の注目度): 9.775257597631244
- License:
- Abstract: Flat minima, known to enhance generalization and robustness in supervised learning, remain largely unexplored in generative models. In this work, we systematically investigate the role of loss surface flatness in generative models, both theoretically and empirically, with a particular focus on diffusion models. We establish a theoretical claim that flatter minima improve robustness against perturbations in target prior distributions, leading to benefits such as reduced exposure bias -- where errors in noise estimation accumulate over iterations -- and significantly improved resilience to model quantization, preserving generative performance even under strong quantization constraints. We further observe that Sharpness-Aware Minimization (SAM), which explicitly controls the degree of flatness, effectively enhances flatness in diffusion models, whereas other well-known methods such as Stochastic Weight Averaging (SWA) and Exponential Moving Average (EMA), which promote flatness indirectly via ensembling, are less effective. Through extensive experiments on CIFAR-10, LSUN Tower, and FFHQ, we demonstrate that flat minima in diffusion models indeed improves not only generative performance but also robustness.
- Abstract(参考訳): 教師付き学習における一般化と堅牢性を高めることで知られているフラット・ミニマは、生成モデルにおいてほとんど解明されていない。
本研究では,生成モデルにおける損失面平坦性の役割を理論的にも経験的にも,特に拡散モデルに焦点をあてて体系的に検討する。
我々は、フラットなミニマは、ターゲットの事前分布における摂動に対するロバスト性を向上し、露光バイアスの低減や、ノイズ推定の誤差が繰り返しに蓄積されるといった利点をもたらし、量子化のモデルに対するレジリエンスを著しく改善し、強力な量子化制約下でも生成性能を維持するという理論的主張を確立する。
さらに,拡散モデルの平坦度を明示的に制御するシャープネス・アウェア最小化(SAM)は,拡散モデルの平坦度を効果的に向上する一方,SWA(Stochastic Weight Averaging)やEMA(Exponential moving Average)といった,間接的に平度を向上する手法では効果が低いことも確認した。
CIFAR-10, LSUN Tower, FFHQの広範な実験を通じて, 拡散モデルにおける平坦なミニマは, 生成性能だけでなく頑健性も向上することを示した。
関連論文リスト
- Adversarial Transferability in Deep Denoising Models: Theoretical Insights and Robustness Enhancement via Out-of-Distribution Typical Set Sampling [6.189440665620872]
深層学習に基づく画像認識モデルは優れた性能を示すが、ロバストネス分析の欠如は依然として重要な懸念点である。
主な問題は、これらのモデルが敵攻撃の影響を受けやすいことである。
本稿では,新たな対人防御手法であるOut-of-Distribution typical Set Smpling Training戦略を提案する。
論文 参考訳(メタデータ) (2024-12-08T13:47:57Z) - Generalized Diffusion Model with Adjusted Offset Noise [1.7767466724342067]
本稿では,厳密な確率的枠組みの中で自然に付加的な雑音を取り入れた一般化拡散モデルを提案する。
我々は、ある調整でノイズを相殺する理論的等価性を確立し、証拠の低い境界に基づいて損失関数を導出する。
合成データセットの実験により、我々のモデルは輝度に関する課題に効果的に対処し、高次元シナリオにおいて従来の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-04T08:57:03Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Soft Mixture Denoising: Beyond the Expressive Bottleneck of Diffusion
Models [76.46246743508651]
我々は,現在の拡散モデルが後方認知において表現力のあるボトルネックを持っていることを示した。
本稿では,後方復調のための表現的かつ効率的なモデルであるソフトミキシング・デノナイジング(SMD)を導入する。
論文 参考訳(メタデータ) (2023-09-25T12:03:32Z) - DiffLLE: Diffusion-guided Domain Calibration for Unsupervised Low-light
Image Enhancement [21.356254176992937]
既存の教師なし低照度画像強調法は、実用上十分な有効性と一般化を欠いている。
DiffLLEと呼ばれる、より堅牢で効果的に教師なしの低照度化を実現するために拡散型領域校正を開発した。
我々の手法は、単純な教師なしベースラインのみを用いることで、教師なしメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-08-18T03:40:40Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Perimeter Control Using Deep Reinforcement Learning: A Model-free
Approach towards Homogeneous Flow Rate Optimization [28.851432612392436]
周辺制御は、交通密度が臨界値以下であることを保証するため、地域間の移動フローを制御することにより、保護領域内の交通効率を高く維持する。
既存のアプローチは、ネットワーク伝送モデル(NTM)とマクロ基礎図(MFD)に依存するかによって、モデルベースまたはモデルフリーに分類することができる。
論文 参考訳(メタデータ) (2023-05-29T21:22:08Z) - Diffusion Models are Minimax Optimal Distribution Estimators [49.47503258639454]
拡散モデリングの近似と一般化能力について、初めて厳密な分析を行った。
実密度関数がベソフ空間に属し、経験値整合損失が適切に最小化されている場合、生成したデータ分布は、ほぼ最小の最適推定値が得られることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:31:55Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。