論文の概要: Risk-averse learning with delayed feedback
- arxiv url: http://arxiv.org/abs/2409.16866v1
- Date: Wed, 25 Sep 2024 12:32:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 03:55:18.715568
- Title: Risk-averse learning with delayed feedback
- Title(参考訳): 遅延フィードバックによるリスク回避学習
- Authors: Siyi Wang, Zifan Wang, Karl Henrik Johansson, Sandra Hirche,
- Abstract要約: 我々は,一点最適化と二点ゼロ階最適化に頼った2つのリスク逆学習アルゴリズムを開発した。
その結果,2点リスク逆学習は1点アルゴリズムよりも少ない残差を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 17.626195546400247
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In real-world scenarios, the impacts of decisions may not manifest immediately. Taking these delays into account facilitates accurate assessment and management of risk in real-world environments, thereby ensuring the efficacy of strategies. In this paper, we investigate risk-averse learning using Conditional Value at Risk (CVaR) as risk measure, while incorporating delayed feedback with unknown but bounded delays. We develop two risk-averse learning algorithms that rely on one-point and two-point zeroth-order optimization approaches, respectively. The regret achieved by the algorithms is analyzed in terms of the cumulative delay and the number of total samplings. The results suggest that the two-point risk-averse learning achieves a smaller regret bound than the one-point algorithm. Furthermore, the one-point risk-averse learning algorithm attains sublinear regret under certain delay conditions, and the two-point risk-averse learning algorithm achieves sublinear regret with minimal restrictions on the delay. We provide numerical experiments on a dynamic pricing problem to demonstrate the performance of the proposed algorithms.
- Abstract(参考訳): 現実のシナリオでは、意思決定の影響はすぐには現れないかもしれない。
これらの遅延を考慮すると、現実世界の環境におけるリスクの正確な評価と管理が容易になり、戦略の有効性が保証される。
本稿では,リスク評価の条件値(CVaR)をリスク尺度として用いたリスク逆学習について検討する。
そこで我々は,一点最適化と二点ゼロ階最適化を併用した2つのリスク-逆学習アルゴリズムを開発した。
アルゴリズムが達成した後悔は累積遅延と全サンプリング数の観点から分析する。
その結果,2点リスク逆学習は1点アルゴリズムよりも少ない残差を達成できることが示唆された。
さらに、一点リスク回避学習アルゴリズムは、一定の遅延条件下でサブリニア後悔を達成し、二点リスク回避学習アルゴリズムは遅延の最小限の制限でサブリニア後悔を達成できる。
提案アルゴリズムの性能を示すために,動的価格問題に関する数値実験を行った。
関連論文リスト
- Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。
本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。
我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文 参考訳(メタデータ) (2024-07-10T13:09:52Z) - Risk-Aware Linear Bandits: Theory and Applications in Smart Order
Routing [10.69955834942979]
スマート・オーダー・ルーティング(SOR)におけるリスク・アウェア・バンディットの最適化について検討する。
分散最小化グローバル最適化(G-Optimal)設計により、新しいインスタンス非依存型リスク意識探索-then-Commit(RISE)アルゴリズムとインスタンス依存型リスク意識継承排除(RISE++)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-04T00:21:10Z) - Deep Learning for Systemic Risk Measures [3.274367403737527]
本研究の目的は,システム的リスク対策のための新しい方法論の枠組みを検討することである。
この新たな枠組みの下で、システム的リスク対策は、集約されたシステムを保護する最小限の現金として解釈できる。
ディープラーニングは、金融モデリングやリスク管理においてますます注目を集めている。
論文 参考訳(メタデータ) (2022-07-02T05:01:19Z) - Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文 参考訳(メタデータ) (2022-06-29T14:11:15Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - TOPS: Transition-based VOlatility-controlled Policy Search and its
Global Convergence [9.607937067646617]
本稿では,遷移型ボラティリティ制御ポリシサーチ(TOPS)を提案する。
このアルゴリズムは、連続した軌道ではなく(おそらく非連続的な)遷移から学習することで、リスク-逆問題の解法である。
理論的解析と実験結果の両方が、リスク・逆ポリシー探索手法の最先端レベルを示している。
論文 参考訳(メタデータ) (2022-01-24T18:29:23Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff
in Regret [115.85354306623368]
本研究では,未知の遷移カーネルを持つマルコフ決定過程におけるリスク感応性強化学習について検討する。
確率的に効率的なモデルレスアルゴリズムとして、リスク感性価値反復(RSVI)とリスク感性Q-ラーニング(RSQ)を提案する。
RSVIが $tildeObig(lambda(|beta| H2) cdot sqrtH3 S2AT big) に達したことを証明しています。
論文 参考訳(メタデータ) (2020-06-22T19:28:26Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。