論文の概要: Distributional Model Equivalence for Risk-Sensitive Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2307.01708v1
- Date: Tue, 4 Jul 2023 13:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 16:58:49.117932
- Title: Distributional Model Equivalence for Risk-Sensitive Reinforcement
Learning
- Title(参考訳): リスク感応強化学習のための分布モデル等価性
- Authors: Tyler Kastner, Murat A. Erdogdu, Amir-massoud Farahmand
- Abstract要約: 分散強化学習を活用し、モデル等価性の2つの新しい概念を導入する。
我々は、我々のフレームワークがどのようにモデルなしのリスクに敏感なアルゴリズムを拡張できるかを実証する。
- 参考スコア(独自算出の注目度): 15.772166816211314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of learning models for risk-sensitive reinforcement
learning. We theoretically demonstrate that proper value equivalence, a method
of learning models which can be used to plan optimally in the risk-neutral
setting, is not sufficient to plan optimally in the risk-sensitive setting. We
leverage distributional reinforcement learning to introduce two new notions of
model equivalence, one which is general and can be used to plan for any risk
measure, but is intractable; and a practical variation which allows one to
choose which risk measures they may plan optimally for. We demonstrate how our
framework can be used to augment any model-free risk-sensitive algorithm, and
provide both tabular and large-scale experiments to demonstrate its ability.
- Abstract(参考訳): リスク感応強化学習における学習モデルの問題を考える。
リスクニュートラルな設定で最適に計画できる学習モデルである適切な値等価性は、リスクセンシティブな設定で最適に計画するのに十分でないことを理論的に実証する。
分散強化学習を用いて,モデル等価性という新たな概念を2つ導入した。1つは汎用的であり,任意のリスク対策の計画に使用できるが,難解である。また,どのリスク対策を最適に計画するかを選択できる実用的なバリエーションである。
当社のフレームワークは,モデルフリーなリスクセンシティブアルゴリズムの強化にどのように役立つのかを実証するとともに,その能力を示すために,表式および大規模実験の両方を提供する。
関連論文リスト
- Robust Reinforcement Learning with Dynamic Distortion Risk Measures [0.0]
我々は、堅牢なリスク対応強化学習問題を解決するための枠組みを考案した。
我々は, 環境の不確実性とリスクを, 動的に頑健な歪みリスク対策のクラスで同時に考慮する。
本研究では,リスクを意識したRL問題の解法としてアクター批判アルゴリズムを構築した。
論文 参考訳(メタデータ) (2024-09-16T08:54:59Z) - Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - Mind the Uncertainty: Risk-Aware and Actively Exploring Model-Based
Reinforcement Learning [26.497229327357935]
トラジェクティブサンプリングを用いたモデルベース強化学習におけるリスク管理手法を提案する。
実験により、不確実性の分離は、不確実かつ安全クリティカルな制御環境において、データ駆動型アプローチとうまく連携するために不可欠であることが示されている。
論文 参考訳(メタデータ) (2023-09-11T16:10:58Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - Deep Learning for Systemic Risk Measures [3.274367403737527]
本研究の目的は,システム的リスク対策のための新しい方法論の枠組みを検討することである。
この新たな枠組みの下で、システム的リスク対策は、集約されたシステムを保護する最小限の現金として解釈できる。
ディープラーニングは、金融モデリングやリスク管理においてますます注目を集めている。
論文 参考訳(メタデータ) (2022-07-02T05:01:19Z) - Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文 参考訳(メタデータ) (2022-06-29T14:11:15Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Entropic Risk Constrained Soft-Robust Policy Optimization [12.362670630646805]
モデル不確実性によって引き起こされるリスクを定量化し、管理することは、高リスク領域において重要である。
本稿では,モデルの不確実性に対するリスクに反する,エントロピー的リスク制約付きポリシー勾配とアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-20T23:48:28Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。