論文の概要: Variance reduction of diffusion model's gradients with Taylor approximation-based control variate
- arxiv url: http://arxiv.org/abs/2408.12270v1
- Date: Thu, 22 Aug 2024 10:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 14:23:36.779080
- Title: Variance reduction of diffusion model's gradients with Taylor approximation-based control variate
- Title(参考訳): テイラー近似に基づく制御変数による拡散モデルの勾配のばらつき低減
- Authors: Paul Jeha, Will Grathwohl, Michael Riis Andersen, Carl Henrik Ek, Jes Frellsen,
- Abstract要約: 我々は、学習目標とその勾配に$k$-次テイラー展開を用い、スコアベースモデルの高分散を低減する。
両者の等価性を証明し、低次元問題設定に対するアプローチの有効性を実証的に実証する。
- 参考スコア(独自算出の注目度): 19.220466777203686
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Score-based models, trained with denoising score matching, are remarkably effective in generating high dimensional data. However, the high variance of their training objective hinders optimisation. We attempt to reduce it with a control variate, derived via a $k$-th order Taylor expansion on the training objective and its gradient. We prove an equivalence between the two and demonstrate empirically the effectiveness of our approach on a low dimensional problem setting; and study its effect on larger problems.
- Abstract(参考訳): スコアベースモデルは,高次元データの生成に極めて有効である。
しかし、トレーニング対象の高分散は、最適化を妨げます。
学習目標とその勾配に対するTaylor拡張を$k$-orderで導出した制御変分で低減しようとする。
両者の等価性を証明し、低次元問題設定におけるアプローチの有効性を実証的に証明し、より大きな問題に対するその効果について検討する。
関連論文リスト
- Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Ensemble Adversarial Defense via Integration of Multiple Dispersed Low Curvature Models [7.8245455684263545]
本研究では,攻撃伝達性を低減し,アンサンブルの多様性を高めることを目的とする。
損失曲率を表す2階勾配を, 対向的強靭性の重要な要因として同定する。
本稿では,複数変数の低曲率ネットワークモデルをトレーニングするための新しい正規化器を提案する。
論文 参考訳(メタデータ) (2024-03-25T03:44:36Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning [19.850893012601638]
連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本稿では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-26T01:44:01Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Additive Poisson Process: Learning Intensity of Higher-Order Interaction
in Stochastic Processes [10.439638982101181]
低次元射影を用いたプロセスにおける強度関数の高次相互作用効果をモデル化できる新しいフレームワークであるAdditive Poisson Process(APP)を提案する。
我々のモデルは、統計多様体上の高階相互作用をモデル化するための情報幾何学の技法と、次元の呪いの影響を克服するために低次元射影を使用する一般化加法モデルを組み合わせる。
論文 参考訳(メタデータ) (2020-06-16T08:25:36Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。