論文の概要: One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based
Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.00124v3
- Date: Mon, 30 Oct 2023 15:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 04:19:28.005251
- Title: One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based
Offline Reinforcement Learning
- Title(参考訳): すべてを支配するリスク:モデルベースオフライン強化学習におけるリスクに敏感な視点
- Authors: Marc Rigter, Bruno Lacerda, Nick Hawes
- Abstract要約: 両問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。
相対的不確実性へのリスク回避は、環境に悪影響を及ぼす可能性のある行動を妨げる。
実験の結果,提案アルゴリズムは決定論的ベンチマーク上での競合性能を実現することがわかった。
- 参考スコア(独自算出の注目度): 25.218430053391884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) is suitable for safety-critical domains
where online exploration is too costly or dangerous. In such safety-critical
settings, decision-making should take into consideration the risk of
catastrophic outcomes. In other words, decision-making should be
risk-sensitive. Previous works on risk in offline RL combine together offline
RL techniques, to avoid distributional shift, with risk-sensitive RL
algorithms, to achieve risk-sensitivity. In this work, we propose
risk-sensitivity as a mechanism to jointly address both of these issues. Our
model-based approach is risk-averse to both epistemic and aleatoric
uncertainty. Risk-aversion to epistemic uncertainty prevents distributional
shift, as areas not covered by the dataset have high epistemic uncertainty.
Risk-aversion to aleatoric uncertainty discourages actions that may result in
poor outcomes due to environment stochasticity. Our experiments show that our
algorithm achieves competitive performance on deterministic benchmarks, and
outperforms existing approaches for risk-sensitive objectives in stochastic
domains.
- Abstract(参考訳): オフライン強化学習(rl)は、オンライン探索がコストや危険すぎる、安全クリティカルなドメインに適している。
このような安全クリティカルな設定では、決定は破滅的な結果のリスクを考慮するべきである。
言い換えれば、意思決定はリスクに敏感であるべきです。
オフラインRLのリスクに関する以前の研究は、分散シフトを避けるためにオフラインRL技術とリスク感受性のRLアルゴリズムを組み合わせている。
本研究では,これら2つの問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。
我々のモデルに基づくアプローチは、てんかんとてんかんの不確実性の両方に対してリスク逆である。
エピステマ性不確実性へのリスク回避は、データセットがカバーしていない領域がエピステマ性不確実性が高いため、分布シフトを妨げる。
相対的不確実性へのリスク回避は、環境確率性による悪い結果をもたらす可能性のある行動を妨げる。
実験により,本アルゴリズムは決定論的ベンチマークにおいて競争性能を達成し,確率的領域におけるリスクに敏感な目標に対する既存のアプローチを上回った。
関連論文リスト
- Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。
本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。
我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文 参考訳(メタデータ) (2024-07-10T13:09:52Z) - Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - Uncertainty-aware Distributional Offline Reinforcement Learning [26.34178581703107]
オフライン強化学習(RL)は、観測データのみに依存するため、異なる課題を提示する。
本研究では,不確実性と環境の両面に同時に対処する不確実性を考慮したオフラインRL法を提案する。
本手法は,リスク感受性ベンチマークとリスクニュートラルベンチマークの両方で総合評価を行い,その優れた性能を実証した。
論文 参考訳(メタデータ) (2024-03-26T12:28:04Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - Distributional Reinforcement Learning with Online Risk-awareness
Adaption [5.363478475460403]
オンラインリスク適応型分散RL(DRL-ORA)を新たに導入する。
DRL-ORAは、オンラインの総変動最小化問題を解くことにより、てんかんのリスクレベルを動的に選択する。
DRL-ORAは、固定リスクレベルまたは手動で決められたリスクレベルに依存する既存の手法よりも優れている、複数のタスクのクラスを示す。
論文 参考訳(メタデータ) (2023-10-08T14:32:23Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。
リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文 参考訳(メタデータ) (2022-09-09T00:34:58Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Addressing Inherent Uncertainty: Risk-Sensitive Behavior Generation for
Automated Driving using Distributional Reinforcement Learning [0.0]
自動運転車におけるリスク感応行動生成のための2段階のアプローチを提案する。
まず, 深層分布強化学習を用いて, 不確実な環境下で最適政策を学習する。
実行中は、確立されたリスク基準を適用して最適なリスク感受性行動を選択する。
論文 参考訳(メタデータ) (2021-02-05T11:45:12Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。