論文の概要: Value-at-Risk Optimization with Gaussian Processes
- arxiv url: http://arxiv.org/abs/2105.06126v1
- Date: Thu, 13 May 2021 08:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 13:51:58.131348
- Title: Value-at-Risk Optimization with Gaussian Processes
- Title(参考訳): ガウス過程を用いたバリュー・アット・リスク最適化
- Authors: Quoc Phong Nguyen and Zhongxiang Dai and Bryan Kian Hsiang Low and
Patrick Jaillet
- Abstract要約: Value-at-risk(VaR)は、ランダムな環境要因を持つ現実世界のアプリケーションにおけるリスクを評価するための確立された尺度です。
本稿では, ブラックボックス目的関数のVaRを最小化するための新しいVaRアッパー信頼境界(V-UCB)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 46.859063096164746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value-at-risk (VaR) is an established measure to assess risks in critical
real-world applications with random environmental factors. This paper presents
a novel VaR upper confidence bound (V-UCB) algorithm for maximizing the VaR of
a black-box objective function with the first no-regret guarantee. To realize
this, we first derive a confidence bound of VaR and then prove the existence of
values of the environmental random variable (to be selected to achieve no
regret) such that the confidence bound of VaR lies within that of the objective
function evaluated at such values. Our V-UCB algorithm empirically demonstrates
state-of-the-art performance in optimizing synthetic benchmark functions, a
portfolio optimization problem, and a simulated robot task.
- Abstract(参考訳): バリュー・アット・リスク(var)は、無作為な環境要因を持つ臨界実世界応用におけるリスクを評価するための確立された尺度である。
本稿では, ブラックボックス目的関数のVaRを最小化するための新しいVaRアッパー信頼境界(V-UCB)アルゴリズムを提案する。
これを実現するために、まずVaRの信頼境界を導出し、次に環境ランダム変数の値の存在を証明し、VaRの信頼境界がそれらの値で評価された目的関数の範囲内にあることを示す。
我々のV-UCBアルゴリズムは、ベンチマーク関数の最適化、ポートフォリオ最適化問題、シミュレーションロボットタスクにおける最先端性能を実証的に実証する。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文 参考訳(メタデータ) (2024-05-02T20:28:49Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Risk-Averse No-Regret Learning in Online Convex Games [19.4481913405231]
リスク回避エージェントを備えたオンラインゲームは,コストの大幅な増大のリスクを最小限に抑える最適な決定を学習することを目的としている。
コスト関数の分布は一般に観測不可能なすべてのエージェントの作用に依存するため、コストの条件付値(CVaR)の計算は困難である。
CVaR値を用いて計算したCVaR勾配の1点ゼロ次推定に依存する新しいオンラインリスク逆学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-16T21:36:47Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Risk-averse Heteroscedastic Bayesian Optimization [45.12421486836736]
リスク回避型ヘテロセダスティックベイズ最適化アルゴリズム(RAHBO)を提案する。
RAHBOは、ハイリターンと低ノイズ分散の解を、ハエの騒音分布を学習しながら同定することを目的としている。
単一のソリューションのみを識別しなければならないアプリケーションに対して、最終的な決定ポイントを報告するための堅牢なルールを提供します。
論文 参考訳(メタデータ) (2021-11-05T17:38:34Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Bayesian Optimization of Risk Measures [7.799648230758491]
我々は、$rho[F(x, W) ]$ という形の目的関数のベイズ最適化を考える。
目的関数の構造を利用してサンプリング効率を大幅に向上する新しいベイズ最適化アルゴリズム群を提案する。
論文 参考訳(メタデータ) (2020-07-10T18:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。