論文の概要: Parametrized Convex Universal Approximators for Decision-Making Problems
- arxiv url: http://arxiv.org/abs/2201.06298v1
- Date: Mon, 17 Jan 2022 09:29:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 15:27:49.093804
- Title: Parametrized Convex Universal Approximators for Decision-Making Problems
- Title(参考訳): 意思決定問題に対するパラメータ付き凸普遍近似器
- Authors: Jinrae Kim, Youdan Kim
- Abstract要約: 一般的な意思決定問題に対して、PMA(Parametrized Max-affine)とPLSE(Parametrized log-sum-exp)ネットワークを提案する。
PMAとPLSEは、パラメタライズされた凸連続関数のための形状保存普遍近似器である。
- 参考スコア(独自算出の注目度): 2.3300763504208595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parametrized max-affine (PMA) and parametrized log-sum-exp (PLSE) networks
are proposed for general decision-making problems. The proposed approximators
generalize existing convex approximators, namely, max-affine (MA) and
log-sum-exp (LSE) networks, by considering function arguments of condition and
decision variables and replacing the network parameters of MA and LSE networks
with continuous functions with respect to the condition variable. The universal
approximation theorem of PMA and PLSE is proven, which implies that PMA and
PLSE are shape-preserving universal approximators for parametrized convex
continuous functions. Practical guidelines for incorporating deep neural
networks within PMA and PLSE networks are provided. A numerical simulation is
performed to demonstrate the performance of the proposed approximators. The
simulation results support that PLSE outperforms other existing approximators
in terms of minimizer and optimal value errors with scalable and efficient
computation for high-dimensional cases.
- Abstract(参考訳): 一般的な意思決定問題に対して、PMA(Parametrized Max-affine)とPLSE(Parametrized log-sum-exp)ネットワークを提案する。
提案した近似器は、条件変数と決定変数の関数引数を考慮し、MAおよびLSEネットワークのネットワークパラメータを条件変数に関する連続関数に置き換えることで、既存の凸近似器、すなわちmax-affine(MA)とlog-sum-exp(LSE)ネットワークを一般化する。
PMA と PLSE の普遍近似定理が証明され、これは PMA と PLSE がパラメタライズされた凸連続函数に対する形状保存普遍近似器であることを意味する。
PMAとPLSEネットワークにディープニューラルネットワークを組み込むための実践的ガイドラインが提供される。
提案した近似器の性能を示す数値シミュレーションを行う。
シミュレーションの結果、plseは、高次元の場合のスケーラブルで効率的な計算により、最少値と最適値の誤差の点で、既存の近似器よりも優れています。
関連論文リスト
- Scalable spectral representations for network multiagent control [53.631272539560435]
マルチエージェント制御の一般的なモデルであるNetwork Markov Decision Processes (MDPs)は、効率的な学習に重大な課題をもたらす。
まず、ネットワークMDPに対してスケーラブルなスペクトル局所表現を導出し、各エージェントの局所$Q$関数に対するネットワーク線形部分空間を誘導する。
我々は,連続的な状態対応ネットワークMDPのためのスケーラブルなアルゴリズムフレームワークを設計し,アルゴリズムの収束をエンドツーエンドで保証する。
論文 参考訳(メタデータ) (2024-10-22T17:45:45Z) - Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。
最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。
我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文 参考訳(メタデータ) (2024-04-19T06:24:22Z) - Value-Biased Maximum Likelihood Estimation for Model-based Reinforcement
Learning in Discounted Linear MDPs [16.006893624836554]
本稿では,VBMLE (Value-Biased Maximum Likelihood Estimation) のレンズによる線形MDPの解法を提案する。
VBMLEは、各時間ステップで1つの最適化問題だけを解決する必要があるため、計算的により効率的である。
後悔する解析では、線形MDPにおけるMLEの一般収束結果が、新しいスーパーマーチンゲール構造を通して提供される。
論文 参考訳(メタデータ) (2023-10-17T18:27:27Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - Moreau Envelope ADMM for Decentralized Weakly Convex Optimization [55.2289666758254]
本稿では,分散最適化のための乗算器の交互方向法(ADMM)の近位変種を提案する。
数値実験の結果,本手法は広く用いられている手法よりも高速かつ堅牢であることが示された。
論文 参考訳(メタデータ) (2023-08-31T14:16:30Z) - Efficient Global Planning in Large MDPs via Stochastic Primal-Dual
Optimization [12.411844611718958]
提案手法は, 生成モデルに対する多数のクエリの後に, ほぼ最適ポリシーを出力することを示す。
提案手法は計算効率が高く,低次元パラメータベクトルでコンパクトに表現される単一のソフトマックスポリシーを出力する点が大きな利点である。
論文 参考訳(メタデータ) (2022-10-21T15:49:20Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Geom-SPIDER-EM: Faster Variance Reduced Stochastic Expectation
Maximization for Nonconvex Finite-Sum Optimization [21.81837334970773]
本稿では,予測最大化(EM)アルゴリズムへのパス付き微分エスティマの拡張を提案する。
SPIDER-EM-IDERと同じ状態アート境界をサポートし,その結果を得た。
論文 参考訳(メタデータ) (2020-11-24T21:20:53Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。