論文の概要: Risk-Averse Learning by Temporal Difference Methods
- arxiv url: http://arxiv.org/abs/2003.00780v1
- Date: Mon, 2 Mar 2020 11:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 05:50:21.454699
- Title: Risk-Averse Learning by Temporal Difference Methods
- Title(参考訳): 時間差法によるリスク回避学習
- Authors: Umit Kose and Andrzej Ruszczynski
- Abstract要約: 動的リスク尺度による性能評価による強化学習について考察する。
時間差の方法のリスク-逆対応について提案し、その収束性を確率1で証明する。
- 参考スコア(独自算出の注目度): 5.33024001730262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider reinforcement learning with performance evaluated by a dynamic
risk measure. We construct a projected risk-averse dynamic programming equation
and study its properties. Then we propose risk-averse counterparts of the
methods of temporal differences and we prove their convergence with probability
one. We also perform an empirical study on a complex transportation problem.
- Abstract(参考訳): 動的リスク尺度による性能評価による強化学習の検討を行った。
予測されたリスク-逆動的プログラミング方程式を構築し,その性質について検討する。
次に,時間差の手法のリスク逆対応を提案し,それらの収束を確率 1 で証明する。
また,複雑な交通問題についても実証研究を行った。
関連論文リスト
- HACSurv: A Hierarchical Copula-based Approach for Survival Analysis with Dependent Competing Risks [51.95824566163554]
HACSurvは、競合するリスクを持つデータから構造や原因特異的生存関数を学習する生存分析手法である。
リスクと検閲の間の依存関係をキャプチャすることで、HACSurvはより良い生存予測を実現する。
論文 参考訳(メタデータ) (2024-10-19T18:52:18Z) - Robust Reinforcement Learning with Dynamic Distortion Risk Measures [0.0]
我々は、堅牢なリスク対応強化学習問題を解決するための枠組みを考案した。
我々は, 環境の不確実性とリスクを, 動的に頑健な歪みリスク対策のクラスで同時に考慮する。
本研究では,リスクを意識したRL問題の解法としてアクター批判アルゴリズムを構築した。
論文 参考訳(メタデータ) (2024-09-16T08:54:59Z) - Regret Bounds for Risk-sensitive Reinforcement Learning with Lipschitz
Dynamic Risk Measures [23.46659319363579]
EmphLipschitz動的リスク尺度に適用した2つのモデルベースアルゴリズムを提案する。
特に、私たちの上限は、アクションの数とエピソード数に最適な依存を示す。
論文 参考訳(メタデータ) (2023-06-04T16:24:19Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。
リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文 参考訳(メタデータ) (2022-09-09T00:34:58Z) - Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文 参考訳(メタデータ) (2022-06-29T14:11:15Z) - Risk Perspective Exploration in Distributional Reinforcement Learning [10.441880303257468]
リスクレベルでのリスクレベルと楽観的な振る舞いを探索するリスクスケジューリング手法を提案する。
マルチエージェント環境でのリスクスケジューリングを用いたDMIXアルゴリズムの性能向上を示す。
論文 参考訳(メタデータ) (2022-06-28T17:37:34Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event
Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。
本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-10-26T20:13:17Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。