論文の概要: Approximation of Convex Envelope Using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.14421v1
- Date: Fri, 24 Nov 2023 11:47:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 15:09:59.472961
- Title: Approximation of Convex Envelope Using Reinforcement Learning
- Title(参考訳): 強化学習を用いた凸エンベロープの近似
- Authors: Vivek S. Borkar, Adit Akarsh
- Abstract要約: 最適停止のためのQ-ラーニングの変種を用いて凸エンベロープを近似する強化学習手法を開発した。
一連のテスト問題に関して非常に有望な結果を示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Oberman gave a stochastic control formulation of the problem of estimating
the convex envelope of a non-convex function. Based on this, we develop a
reinforcement learning scheme to approximate the convex envelope, using a
variant of Q-learning for controlled optimal stopping. It shows very promising
results on a standard library of test problems.
- Abstract(参考訳): オーバーマンは、非凸函数の凸包絡を推定する問題の確率的制御式を与えた。
そこで本研究では, 最適停止制御のためのq-learningの変種を用いて, 凸包絡を近似する強化学習手法を開発した。
テスト問題の標準ライブラリでは、非常に有望な結果が示されます。
関連論文リスト
- Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning [55.75959755058356]
深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。
最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。
そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
論文 参考訳(メタデータ) (2024-03-12T14:49:19Z) - Gaussian Boson Sampling for binary optimization [0.0]
本研究では,条件付き値-リスクコスト関数を用いた変分量子固有解法を用いる。
ランダムに生成されたインスタンス上で数値シミュレーションを行うことで、原理の証明を行う。
論文 参考訳(メタデータ) (2023-12-12T13:00:55Z) - Moreau Envelope ADMM for Decentralized Weakly Convex Optimization [55.2289666758254]
本稿では,分散最適化のための乗算器の交互方向法(ADMM)の近位変種を提案する。
数値実験の結果,本手法は広く用いられている手法よりも高速かつ堅牢であることが示された。
論文 参考訳(メタデータ) (2023-08-31T14:16:30Z) - Convex Hulls of Reachable Sets [18.03395556436054]
到達可能な集合は制御において重要な役割を果たすが、計算が困難であることで知られる。
到達可能な集合の凸殻を、球面上の初期条件を持つ常微分方程式の解の凸殻として特徴づける。
この有限次元キャラクタリゼーションは、効率的なサンプリングベース推定アルゴリズムを解き放ち、精度良く到達可能な集合をオーバー近似する。
論文 参考訳(メタデータ) (2023-03-30T19:31:41Z) - Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation
Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。
提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-19T14:48:54Z) - Sensing Cox Processes via Posterior Sampling and Positive Bases [56.82162768921196]
本研究では,空間統計学から広く用いられている点過程の適応センシングについて検討する。
我々は、この強度関数を、特別に構築された正の基底で表される、歪んだガウス過程のサンプルとしてモデル化する。
我々の適応センシングアルゴリズムはランゲヴィン力学を用いており、後続サンプリング(textscCox-Thompson)と後続サンプリング(textscTop2)の原理に基づいている。
論文 参考訳(メタデータ) (2021-10-21T14:47:06Z) - Concave Utility Reinforcement Learning with Zero-Constraint Violations [43.29210413964558]
本稿では,凸制約を伴うCURL(Concave utility reinforcement Learning)の問題点について考察する。
制約違反をゼロにするモデルベース学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:13:33Z) - Stochastic Control through Approximate Bayesian Input Inference [23.65155934960922]
不確実性下での最適制御は、最適化問題のためのトラクタブルソリューションの作成が困難であるため、制御の一般的な課題です。
制御問題を入力推定の1つとすることで、高度な近似推論技術を用いて統計近似を原理的かつ実用的な方法で処理することができる。
論文 参考訳(メタデータ) (2021-05-17T09:27:12Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Pathwise Conditioning of Gaussian Processes [72.61885354624604]
ガウス過程後部をシミュレーションするための従来のアプローチでは、有限個の入力位置のプロセス値の限界分布からサンプルを抽出する。
この分布中心の特徴づけは、所望のランダムベクトルのサイズで3次スケールする生成戦略をもたらす。
条件付けのこのパスワイズ解釈が、ガウス過程の後部を効率的にサンプリングするのに役立てる近似の一般族をいかに生み出すかを示す。
論文 参考訳(メタデータ) (2020-11-08T17:09:37Z) - Finite-Sample Analysis of Stochastic Approximation Using Smooth Convex
Envelopes [40.31139355952393]
一般化エンベロープを用いて滑らかなリャプノフ函数を構築し、そのリャプノフ函数に対してSAの反復体が負のドリフトを持つことを示す。
特に、政治以外のTD学習において、Vトレースアルゴリズムの最初の既知収束率を確立するためにこれを用いる。
また、TD学習を現場で研究し、既存の最先端の成果を$Q$ラーニングで回収する。
論文 参考訳(メタデータ) (2020-02-03T16:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。