Fugu-MT 論文翻訳(概要): Value-at-Risk Optimization with Gaussian Processes

論文の概要: Value-at-Risk Optimization with Gaussian Processes

arxiv url: http://arxiv.org/abs/2105.06126v1
Date: Thu, 13 May 2021 08:00:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-14 13:51:58.131348
Title: Value-at-Risk Optimization with Gaussian Processes
Title（参考訳）: ガウス過程を用いたバリュー・アット・リスク最適化
Authors: Quoc Phong Nguyen and Zhongxiang Dai and Bryan Kian Hsiang Low and Patrick Jaillet
Abstract要約: Value-at-risk(VaR)は、ランダムな環境要因を持つ現実世界のアプリケーションにおけるリスクを評価するための確立された尺度です。本稿では, ブラックボックス目的関数のVaRを最小化するための新しいVaRアッパー信頼境界(V-UCB)アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 46.859063096164746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Value-at-risk (VaR) is an established measure to assess risks in critical real-world applications with random environmental factors. This paper presents a novel VaR upper confidence bound (V-UCB) algorithm for maximizing the VaR of a black-box objective function with the first no-regret guarantee. To realize this, we first derive a confidence bound of VaR and then prove the existence of values of the environmental random variable (to be selected to achieve no regret) such that the confidence bound of VaR lies within that of the objective function evaluated at such values. Our V-UCB algorithm empirically demonstrates state-of-the-art performance in optimizing synthetic benchmark functions, a portfolio optimization problem, and a simulated robot task.
Abstract（参考訳）: バリュー・アット・リスク(var)は、無作為な環境要因を持つ臨界実世界応用におけるリスクを評価するための確立された尺度である。本稿では, ブラックボックス目的関数のVaRを最小化するための新しいVaRアッパー信頼境界(V-UCB)アルゴリズムを提案する。これを実現するために、まずVaRの信頼境界を導出し、次に環境ランダム変数の値の存在を証明し、VaRの信頼境界がそれらの値で評価された目的関数の範囲内にあることを示す。我々のV-UCBアルゴリズムは、ベンチマーク関数の最適化、ポートフォリオ最適化問題、シミュレーションロボットタスクにおける最先端性能を実証的に実証する。

関連論文リスト

Risk-Averse Best Arm Set Identification with Fixed Budget and Fixed Confidence [0.562479170374811]
本稿では,期待報酬の最大化と関連する不確実性の最小化に対処するバンディット最適化における新たな問題設定を提案する。固定信頼と固定最適体制の両方の下で動作可能な統一的メタ予算ゴリトミックフレームワークを提案する。提案手法は,精度と試料効率の両面で既存手法より優れている。
論文参考訳（メタデータ） (2025-06-27T14:21:03Z)
Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文参考訳（メタデータ） (2024-10-21T15:34:44Z)
Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文参考訳（メタデータ） (2024-05-02T20:28:49Z)
Provably Efficient Iterated CVaR Reinforcement Learning with Function Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文参考訳（メタデータ） (2023-07-06T08:14:54Z)
Benefits of Monotonicity in Safe Exploration with Gaussian Processes [50.71125084216603]
動作の集合上で未知の関数を逐次最大化する問題を考察する。 M-SafeUCBは、安全性、適切に定義された後悔の念、安全境界全体の発見という理論的な保証を享受していることを示す。
論文参考訳（メタデータ） (2022-11-03T02:52:30Z)
Risk-Averse No-Regret Learning in Online Convex Games [19.4481913405231]
リスク回避エージェントを備えたオンラインゲームは,コストの大幅な増大のリスクを最小限に抑える最適な決定を学習することを目的としている。コスト関数の分布は一般に観測不可能なすべてのエージェントの作用に依存するため、コストの条件付値(CVaR)の計算は困難である。 CVaR値を用いて計算したCVaR勾配の1点ゼロ次推定に依存する新しいオンラインリスク逆学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-16T21:36:47Z)
Robust and Adaptive Temporal-Difference Learning Using An Ensemble of Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。 OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。 1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文参考訳（メタデータ） (2021-12-01T23:15:09Z)
Risk-averse Heteroscedastic Bayesian Optimization [45.12421486836736]
リスク回避型ヘテロセダスティックベイズ最適化アルゴリズム(RAHBO)を提案する。 RAHBOは、ハイリターンと低ノイズ分散の解を、ハエの騒音分布を学習しながら同定することを目的としている。単一のソリューションのみを識別しなければならないアプリケーションに対して、最終的な決定ポイントを報告するための堅牢なルールを提供します。
論文参考訳（メタデータ） (2021-11-05T17:38:34Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Bayesian Optimization of Risk Measures [7.799648230758491]
我々は、$rho[F(x, W) ]$ という形の目的関数のベイズ最適化を考える。目的関数の構造を利用してサンプリング効率を大幅に向上する新しいベイズ最適化アルゴリズム群を提案する。
論文参考訳（メタデータ） (2020-07-10T18:20:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。