論文の概要: Improved Stochastic Optimization of LogSumExp
- arxiv url: http://arxiv.org/abs/2509.24894v1
- Date: Mon, 29 Sep 2025 15:03:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.073476
- Title: Improved Stochastic Optimization of LogSumExp
- Title(参考訳): LogSumExpの確率最適化の改良
- Authors: Egor Gladin, Alexey Kroshnin, Jia-Jie Zhu, Pavel Dvurechensky,
- Abstract要約: 勾配法を用いて効率よく最適化できるLogSumExpの新たな近似法を提案する。
近似の精度は調整可能なパラメータで制御され、任意に小さくすることができる。
DROと連続最適輸送の実験は、我々のアプローチの利点を実証している。
- 参考スコア(独自算出の注目度): 2.8547553943343797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The LogSumExp function, also known as the free energy, plays a central role in many important optimization problems, including entropy-regularized optimal transport and distributionally robust optimization (DRO). It is also the dual to the Kullback-Leibler (KL) divergence, which is widely used in machine learning. In practice, when the number of exponential terms inside the logarithm is large or infinite, optimization becomes challenging since computing the gradient requires differentiating every term. Previous approaches that replace the full sum with a small batch introduce significant bias. We propose a novel approximation to LogSumExp that can be efficiently optimized using stochastic gradient methods. This approximation is rooted in a sound modification of the KL divergence in the dual, resulting in a new $f$-divergence called the safe KL divergence. The accuracy of the approximation is controlled by a tunable parameter and can be made arbitrarily small. Like the LogSumExp, our approximation preserves convexity. Moreover, when applied to an $L$-smooth function bounded from below, the smoothness constant of the resulting objective scales linearly with $L$. Experiments in DRO and continuous optimal transport demonstrate the advantages of our approach over state-of-the-art baselines and the effective treatment of numerical issues associated with the standard LogSumExp and KL.
- Abstract(参考訳): 自由エネルギーとしても知られるLogSumExp関数は、エントロピー規則化された最適輸送や分散ロバストな最適化(DRO)など、多くの重要な最適化問題において中心的な役割を果たす。
また、機械学習で広く使われているKL(Kullback-Leibler)の発散の双対でもある。
実際には、対数内部の指数項の数が大きくなるか無限であるとき、勾配の計算には各項の微分が必要であるため、最適化は困難になる。
完全な和を小さなバッチに置き換える以前のアプローチは、大きなバイアスをもたらします。
確率勾配法を用いて効率よく最適化できる新しいLogSumExp近似を提案する。
この近似は、二重のKLの発散の音の修正に根ざしており、結果として、安全なKL発散と呼ばれる新しい$f$の発散が生じる。
近似の精度は調整可能なパラメータで制御され、任意に小さくすることができる。
LogSumExpのように、近似は凸性を保存する。
さらに、下から有界な$L$-smooth関数に適用すると、結果の目的物の滑らか度定数は$L$で線形にスケールする。
DROおよび連続最適輸送の実験は、最先端のベースラインに対する我々のアプローチの利点と、標準のLogSumExpおよびKLに関連する数値問題の効果的処理を実証する。
関連論文リスト
- More Optimal Fractional-Order Stochastic Gradient Descent for Non-Convex Optimization Problems [2.5971517743176915]
本稿では,FOSGDとFOSGDを統合した2FOSGD法を提案する。
感度と有効次元性を追跡することにより、2SEDFOSGDは指数を動的に変調し、スラグ振動と急収束を緩和する。
論文 参考訳(メタデータ) (2025-05-05T19:27:36Z) - Gradient Descent Methods for Regularized Optimization [0.6624754673303327]
勾配降下法(GD法)は、微分可能な対象関数の数値最適化に使用される主要な手法の1つである。
GDのより効果的なバージョンは、近位勾配降下と呼ばれ、ソフトスレッディング(Soft-thresholding)と呼ばれる技術を用いて、イテレーション更新をゼロに縮小する。
本稿では, 可変ステップサイズを組み込んだ近位GD法のための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-28T10:54:15Z) - Moreau Envelope ADMM for Decentralized Weakly Convex Optimization [55.2289666758254]
本稿では,分散最適化のための乗算器の交互方向法(ADMM)の近位変種を提案する。
数値実験の結果,本手法は広く用いられている手法よりも高速かつ堅牢であることが示された。
論文 参考訳(メタデータ) (2023-08-31T14:16:30Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Sinkhorn Distributionally Robust Optimization [18.46110328123008]
シンクホーン距離はエントロピー正則化に基づくワッサーシュタイン距離の変種である。
一般名詞分布,輸送コスト,損失関数に対する凸プログラミング二重再構成を導出する。
論文 参考訳(メタデータ) (2021-09-24T12:40:48Z) - Scalable Variational Gaussian Processes via Harmonic Kernel
Decomposition [54.07797071198249]
汎用性を維持しつつ高い忠実度近似を提供する,スケーラブルな変分ガウス過程近似を導入する。
様々な回帰問題や分類問題において,本手法は変換やリフレクションなどの入力空間対称性を活用できることを実証する。
提案手法は, 純粋なGPモデルのうち, CIFAR-10 の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-10T18:17:57Z) - SGB: Stochastic Gradient Bound Method for Optimizing Partition Functions [15.33098084159285]
本稿では,学習環境における分割関数の最適化の問題に対処する。
本稿では,2次代理を持つ分割関数の上界に依存する有界偏化アルゴリズムの変種を提案する。
論文 参考訳(メタデータ) (2020-11-03T04:42:51Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。