論文の概要: Risk-Averse Learning with Varying Risk Levels
- arxiv url: http://arxiv.org/abs/2512.22986v1
- Date: Sun, 28 Dec 2025 16:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.312633
- Title: Risk-Averse Learning with Varying Risk Levels
- Title(参考訳): リスクレベルを変数とするリスク・アバース学習
- Authors: Siyi Wang, Zifan Wang, Karl H. Johansson,
- Abstract要約: 本研究では,リスクレベルの異なる動的環境におけるリスク-逆オンライン最適化について検討する。
環境のダイナミクスとリスクレベルを捉えるために,機能変動指標を用い,新たなリスクレベル変動指標を導入する。
我々は,限られたサンプリング予算でリスク回避学習アルゴリズムを開発し,機能変動,リスクレベル変動,サンプル総数の観点から,それらの動的後悔境界を解析した。
- 参考スコア(独自算出の注目度): 8.646001948552264
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In safety-critical decision-making, the environment may evolve over time, and the learner adjusts its risk level accordingly. This work investigates risk-averse online optimization in dynamic environments with varying risk levels, employing Conditional Value-at-Risk (CVaR) as the risk measure. To capture the dynamics of the environment and risk levels, we employ the function variation metric and introduce a novel risk-level variation metric. Two information settings are considered: a first-order scenario, where the learner observes both function values and their gradients; and a zeroth-order scenario, where only function evaluations are available. For both cases, we develop risk-averse learning algorithms with a limited sampling budget and analyze their dynamic regret bounds in terms of function variation, risk-level variation, and the total number of samples. The regret analysis demonstrates the adaptability of the algorithms in non-stationary and risk-sensitive settings. Finally, numerical experiments are presented to demonstrate the efficacy of the methods.
- Abstract(参考訳): 安全クリティカルな意思決定では、環境は時間とともに進化し、学習者はそれに応じてリスクレベルを調整する。
本研究では,リスクレベルが異なる動的環境におけるリスク-逆オンライン最適化について検討し,リスク尺度として条件付き値-アット・リスク(CVaR)を用いる。
環境のダイナミクスとリスクレベルを捉えるために,機能変動指標を用い,新たなリスクレベル変動指標を導入する。
2つの情報設定は、学習者が関数値と勾配の両方を観測する一階述語シナリオと、関数評価のみを利用できるゼロ階述語シナリオである。
いずれの場合も、サンプリング予算が限られているリスク-逆学習アルゴリズムを開発し、機能変動、リスクレベル変動、サンプル総数の観点から、それらの動的後悔境界を解析する。
後悔の解析は、非定常的かつリスクに敏感な設定におけるアルゴリズムの適応性を示す。
最後に,提案手法の有効性を示す数値実験を行った。
関連論文リスト
- Risk-Averse Reinforcement Learning with Itakura-Saito Loss [63.620958078179356]
リスク回避エージェントはリスクを最小限に抑えるポリシーを選択し、時には期待される価値を犠牲にする。
状態値と行動値の関数を学習するために,板倉-斎藤偏差に基づく数値的に安定かつ数学的に損失関数を導入する。
実験セクションでは、既知の解析解を含む複数のシナリオを探索し、その損失関数が代替よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:18:07Z) - Risk-averse learning with delayed feedback [17.626195546400247]
遅延したフィードバックは、リスクを効果的に評価し、管理することを困難にします。
我々は,一点最適化と二点ゼロ階最適化に頼った2つのリスク逆学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T12:32:22Z) - Continuous-time Risk-sensitive Reinforcement Learning via Quadratic Variation Penalty [5.710971447109951]
本稿では,連続時間リスク感応性強化学習(RL)について検討する。
従来の政策勾配表現は2次変動の非線形性に起因するリスク感受性問題には不十分である。
本稿では,メルトンの投資問題に対する提案アルゴリズムの収束性を証明し,学習過程の挙動に対する温度パラメータの影響を定量化する。
論文 参考訳(メタデータ) (2024-04-19T03:05:41Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - DRL-ORA: Distributional Reinforcement Learning with Online Risk Adaption [9.191326295161725]
オンラインリスク適応型分散RL(DRL-ORA)を提案する。
このフレームワークは、既存のリスク適応アプローチを統一し、より良い説明可能性と柔軟性を提供する。
DRL-ORAは、複数のタスクのクラスにおいて、固定リスクレベルや手動で設計したリスクレベル適応に依存する既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-08T14:32:23Z) - Is Risk-Sensitive Reinforcement Learning Properly Resolved? [54.00107408956307]
本稿では,RSRL問題に対するポリシー改善のための新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。
新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文 参考訳(メタデータ) (2023-07-02T11:47:21Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Automatic Risk Adaptation in Distributional Reinforcement Learning [26.113528145137497]
実践的応用における強化学習(RL)エージェントの使用は、最適以下の結果を考慮する必要がある。
これは特に安全クリティカルな環境において重要であり、エラーは高いコストや損害をもたらす可能性がある。
リスク認識エージェントとリスク認識エージェントの両方と比較して, 失敗率を最大7倍に低下させ, 一般化性能を最大14%向上させた。
論文 参考訳(メタデータ) (2021-06-11T11:31:04Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。