論文の概要: Non-convex entropic mean-field optimization via Best Response flow
- arxiv url: http://arxiv.org/abs/2505.22760v1
- Date: Wed, 28 May 2025 18:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.473126
- Title: Non-convex entropic mean-field optimization via Best Response flow
- Title(参考訳): 最適応答流による非凸エントロピー平均場最適化
- Authors: Razvan-Andrei Lascu, Mateusz B. Majka,
- Abstract要約: 固定基準測度に関して、相対エントロピー(KL)によって正規化される空間確率測度における非函数の最小化の問題について議論する。
非函数から正規化子を選択する方法を示すので、Best Response は$L1$Wasserstein 距離の縮約となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of minimizing non-convex functionals on the space of probability measures, regularized by the relative entropy (KL divergence) with respect to a fixed reference measure, as well as the corresponding problem of solving entropy-regularized non-convex-non-concave min-max problems. We utilize the Best Response flow (also known in the literature as the fictitious play flow) and study how its convergence is influenced by the relation between the degree of non-convexity of the functional under consideration, the regularization parameter and the tail behaviour of the reference measure. In particular, we demonstrate how to choose the regularizer, given the non-convex functional, so that the Best Response operator becomes a contraction with respect to the $L^1$-Wasserstein distance, which then ensures the existence of its unique fixed point, which is then shown to be the unique global minimizer for our optimization problem. This extends recent results where the Best Response flow was applied to solve convex optimization problems regularized by the relative entropy with respect to arbitrary reference measures, and with arbitrary values of the regularization parameter. Our results explain precisely how the assumption of convexity can be relaxed, at the expense of making a specific choice of the regularizer. Additionally, we demonstrate how these results can be applied in reinforcement learning in the context of policy optimization for Markov Decision Processes and Markov games with softmax parametrized policies in the mean-field regime.
- Abstract(参考訳): 確率測度空間上の非凸函数を最小化する問題について検討し, 相対エントロピー(KL偏差)により固定基準測度に対して正則化するとともに, エントロピー正則化非凸-非凸 min-max 問題を解く問題について検討する。
本研究は, 最適応答流(文献では架空のプレイフローとしても知られる)を用いて, 機能的非凸性の度合い, 正規化パラメータ, 参照尺度のテール挙動の関係から, その収束性がどのように影響するかを考察する。
特に、非凸関数が与えられたとき、正規化子を選択する方法を示し、Best Response演算子が$L^1$-Wasserstein距離に対して収縮し、その特異な固定点の存在を保証し、最適化問題に対するユニークな大域的最小化器であることが示される。
これは、任意の基準測度に対する相対エントロピーによって正規化される凸最適化問題を、正規化パラメータの任意の値で解くために、Best Response Flowを適用した最近の結果を拡張した。
本結果は,正則化器の特定の選択を犠牲にして,凸性の仮定をどのように緩和するかを正確に説明する。
さらに,マルコフ決定プロセスやマルコフゲームにおいて,平均場条件下でのソフトマックスパラメトリケーションポリシを用いた政策最適化の文脈において,これらの結果が強化学習にどのように適用できるかを実証する。
関連論文リスト
- A Novel Unified Parametric Assumption for Nonconvex Optimization [53.943470475510196]
非最適化は機械学習の中心であるが、一般の非凸性は弱い収束を保証するため、他方に比べて悲観的すぎる。
非凸アルゴリズムに新しい統一仮定を導入する。
論文 参考訳(メタデータ) (2025-02-17T21:25:31Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - Non-Convex Optimization with Certificates and Fast Rates Through Kernel
Sums of Squares [68.8204255655161]
非最適化近似問題を考える。
本稿では,最優先計算を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-11T09:37:04Z) - Integrated Conditional Estimation-Optimization [6.037383467521294]
確率のある不確実なパラメータを文脈的特徴情報を用いて推定できる実世界の多くの最適化問題である。
不確実なパラメータの分布を推定する標準的な手法とは対照的に,統合された条件推定手法を提案する。
当社のI CEOアプローチは、穏健な条件下で理論的に一貫性があることを示します。
論文 参考訳(メタデータ) (2021-10-24T04:49:35Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - The Geometry of Memoryless Stochastic Policy Optimization in
Infinite-Horizon POMDPs [0.0]
我々は、無限水平部分観測可能な決定プロセスにおいて、最高のメモリレスポリシーを見つけるという問題を考察する。
本研究では, 減算された状態-作用周波数と予測累積報酬が政策の関数であり, その度合いは部分観測可能性の度合いによって決定されることを示す。
論文 参考訳(メタデータ) (2021-10-14T14:42:09Z) - Optimal Rates for Random Order Online Optimization [60.011653053877126]
敵が損失関数を選択できるカテットガルバー2020onlineについて検討するが、一様にランダムな順序で提示される。
2020onlineアルゴリズムが最適境界を達成し,安定性を著しく向上することを示す。
論文 参考訳(メタデータ) (2021-06-29T09:48:46Z) - Linear Convergence of Entropy-Regularized Natural Policy Gradient with
Linear Function Approximation [30.02577720946978]
線形関数近似を用いたエントロピー規則化NPGの有限時間収束解析を確立した。
エントロピー規則化NPGは関数近似誤差までのエンフィナール収束を示すことを示す。
論文 参考訳(メタデータ) (2021-06-08T04:30:39Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。