論文の概要: Risk-averse learning with delayed feedback
- arxiv url: http://arxiv.org/abs/2409.16866v2
- Date: Mon, 04 Aug 2025 20:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.496935
- Title: Risk-averse learning with delayed feedback
- Title(参考訳): 遅延フィードバックによるリスク回避学習
- Authors: Siyi Wang, Zifan Wang, Karl Henrik Johansson, Sandra Hirche,
- Abstract要約: 遅延したフィードバックは、リスクを効果的に評価し、管理することを困難にします。
我々は,一点最適化と二点ゼロ階最適化に頼った2つのリスク逆学習アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 17.626195546400247
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In real-world scenarios, risk-averse learning is valuable for mitigating potential adverse outcomes. However, the delayed feedback makes it challenging to assess and manage risk effectively. In this paper, we investigate risk-averse learning using Conditional Value at Risk (CVaR) as risk measure, while incorporating feedback with random but bounded delays. We develop two risk-averse learning algorithms that rely on one-point and two-point zeroth-order optimization approaches, respectively. The dynamic regrets of the algorithms are analyzed in terms of the cumulative delay and the number of total samplings. In the absence of delay, the regret bounds match the established bounds of zeroth-order stochastic gradient methods for risk-averse learning. Furthermore, the two-point risk-averse learning outperforms the one-point algorithm by achieving a smaller regret bound. We provide numerical experiments on a dynamic pricing problem to demonstrate the performance of the algorithms.
- Abstract(参考訳): 現実のシナリオでは、リスク回避学習は潜在的な有害な結果を緩和するのに有用である。
しかし、遅延したフィードバックは、リスクを効果的に評価し、管理することを困難にします。
本稿では,リスク評価の条件値(CVaR)をリスク尺度として用い,ランダムだが有界な遅延を伴うフィードバックを取り入れたリスク逆学習について検討する。
そこで我々は,一点最適化と二点ゼロ階最適化を併用した2つのリスク-逆学習アルゴリズムを開発した。
アルゴリズムの動的後悔は累積遅延と全サンプリング数の観点から分析される。
遅延がない場合、後悔境界は、リスク-逆学習のためのゼロ階確率勾配法の確立した境界と一致する。
さらに、二点リスク逆学習は、より小さな後悔境界を達成して一点アルゴリズムより優れる。
本稿では,動的価格問題に関する数値実験を行い,アルゴリズムの性能を実証する。
関連論文リスト
- Planning and Learning in Average Risk-aware MDPs [4.696083734269232]
我々はリスクニュートラルアルゴリズムを拡張し、より一般的なリスク対策のクラスに対応する。
RVIアルゴリズムとQラーニングアルゴリズムの両方が最適性に収束することが証明されている。
弊社のアプローチは、エージェントの複雑なリスク認識に微調整されたポリシーの特定を可能にする。
論文 参考訳(メタデータ) (2025-03-22T03:18:09Z) - Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。
本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。
我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文 参考訳(メタデータ) (2024-07-10T13:09:52Z) - Risk-averse Learning with Non-Stationary Distributions [18.15046585146849]
本稿では,ランダムなコスト分布が時間とともに変化するリスク-逆オンライン最適化について検討する。
リスクの条件値(CVaR)をリスク尺度として用いたリスク逆目的関数を最小化する。
設計した学習アルゴリズムは,凸関数と凸関数の両方に対して高い確率で線形動的後悔を実現する。
論文 参考訳(メタデータ) (2024-04-03T18:16:47Z) - Towards Efficient Risk-Sensitive Policy Gradient: An Iteration Complexity Analysis [16.32678094159896]
強化学習(Reinforcement Learning, RL)は、様々なアプリケーションで例外的な性能を示している。
リスクに敏感な政策勾配法は、期待されるリターンとリスク対策の両方を取り入れ、より堅牢な政策を得る能力について検討されてきた。
本稿では,リスクに敏感なポリシー勾配法に対して,指数関数的効用関数を持つREINFORCEアルゴリズムに着目し,厳密な反復複雑性解析を行う。
論文 参考訳(メタデータ) (2024-03-13T20:50:49Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。
リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文 参考訳(メタデータ) (2022-09-09T00:34:58Z) - Risk-Aware Linear Bandits: Theory and Applications in Smart Order
Routing [10.69955834942979]
スマート・オーダー・ルーティング(SOR)におけるリスク・アウェア・バンディットの最適化について検討する。
分散最小化グローバル最適化(G-Optimal)設計により、新しいインスタンス非依存型リスク意識探索-then-Commit(RISE)アルゴリズムとインスタンス依存型リスク意識継承排除(RISE++)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-04T00:21:10Z) - Deep Learning for Systemic Risk Measures [3.274367403737527]
本研究の目的は,システム的リスク対策のための新しい方法論の枠組みを検討することである。
この新たな枠組みの下で、システム的リスク対策は、集約されたシステムを保護する最小限の現金として解釈できる。
ディープラーニングは、金融モデリングやリスク管理においてますます注目を集めている。
論文 参考訳(メタデータ) (2022-07-02T05:01:19Z) - Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文 参考訳(メタデータ) (2022-06-29T14:11:15Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - TOPS: Transition-based VOlatility-controlled Policy Search and its
Global Convergence [9.607937067646617]
本稿では,遷移型ボラティリティ制御ポリシサーチ(TOPS)を提案する。
このアルゴリズムは、連続した軌道ではなく(おそらく非連続的な)遷移から学習することで、リスク-逆問題の解法である。
理論的解析と実験結果の両方が、リスク・逆ポリシー探索手法の最先端レベルを示している。
論文 参考訳(メタデータ) (2022-01-24T18:29:23Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff
in Regret [115.85354306623368]
本研究では,未知の遷移カーネルを持つマルコフ決定過程におけるリスク感応性強化学習について検討する。
確率的に効率的なモデルレスアルゴリズムとして、リスク感性価値反復(RSVI)とリスク感性Q-ラーニング(RSQ)を提案する。
RSVIが $tildeObig(lambda(|beta| H2) cdot sqrtH3 S2AT big) に達したことを証明しています。
論文 参考訳(メタデータ) (2020-06-22T19:28:26Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。