論文の概要: Risk-Aware Reinforcement Learning through Optimal Transport Theory
- arxiv url: http://arxiv.org/abs/2309.06239v1
- Date: Tue, 12 Sep 2023 13:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 12:39:29.691578
- Title: Risk-Aware Reinforcement Learning through Optimal Transport Theory
- Title(参考訳): 最適輸送理論によるリスクアウェア強化学習
- Authors: Ali Baheri
- Abstract要約: 本稿では、リスク対応フレームワークを構築するために、最適輸送理論と強化学習(RL)の統合を開拓する。
提案手法は目的関数を修正し,得られたポリシが期待される報酬を最大化するだけでなく,OT距離によって規定されるリスク制約も尊重する。
我々の貢献は、リスク分布、最適値関数、政策行動の間の関係をマッピングする一連の定理で裏付けられている。
- 参考スコア(独自算出の注目度): 4.8951183832371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the dynamic and uncertain environments where reinforcement learning (RL)
operates, risk management becomes a crucial factor in ensuring reliable
decision-making. Traditional RL approaches, while effective in reward
optimization, often overlook the landscape of potential risks. In response,
this paper pioneers the integration of Optimal Transport (OT) theory with RL to
create a risk-aware framework. Our approach modifies the objective function,
ensuring that the resulting policy not only maximizes expected rewards but also
respects risk constraints dictated by OT distances between state visitation
distributions and the desired risk profiles. By leveraging the mathematical
precision of OT, we offer a formulation that elevates risk considerations
alongside conventional RL objectives. Our contributions are substantiated with
a series of theorems, mapping the relationships between risk distributions,
optimal value functions, and policy behaviors. Through the lens of OT, this
work illuminates a promising direction for RL, ensuring a balanced fusion of
reward pursuit and risk awareness.
- Abstract(参考訳): 強化学習(rl)が機能する動的で不確定な環境では、リスク管理は信頼できる意思決定を確保する上で重要な要素となる。
従来のRLアプローチは報酬最適化に効果的だが、しばしば潜在的なリスクの展望を見落としている。
そこで本研究では,リスク対応フレームワークを構築するために,最適輸送(OT)理論をRLと統合した。
提案手法は目的関数を修正し,得られたポリシが期待される報酬を最大化するだけでなく,国家訪問分布と望ましいリスクプロファイルとのOT距離によって規定されるリスク制約を尊重する。
OTの数学的精度を活用することにより、従来のRL目標と並んでリスク考慮を高める定式化を提供する。
我々の貢献は、リスク分布、最適値関数、政策行動の間の関係をマッピングする一連の定理で裏付けられている。
OTのレンズを通して、この研究はRLの有望な方向を照らし、報酬追尾とリスク認識のバランスの取れた融合を保証する。
関連論文リスト
- Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Extreme Risk Mitigation in Reinforcement Learning using Extreme Value
Theory [10.288413564829579]
リスク認識の重要な側面は、破滅的な結果をもたらす可能性のある非常に稀なリスクイベント(リワード)をモデル化することである。
リスクを意識したRL手法は存在するが、リスク回避のレベルは状態-作用値関数の推定の精度に大きく依存している。
本研究では、状態-作用値関数分布によって予測される極端な値の予測を精査することに着目し、非常に稀で危険な事象に直面した場合のRLエージェントのレジリエンスを高めることを提案する。
論文 参考訳(メタデータ) (2023-08-24T18:23:59Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Is Risk-Sensitive Reinforcement Learning Properly Resolved? [32.42976780682353]
そこで本稿では,RSRL問題に対して最適ポリシーに収束可能な新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。
新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文 参考訳(メタデータ) (2023-07-02T11:47:21Z) - Risk-Averse Reinforcement Learning via Dynamic Time-Consistent Risk
Measures [10.221369785560785]
本稿では,マルコフ決定過程(MDP)における報酬列の動的リスクを最大化する問題について考察する。
予測と条件付きリスクリスク(CVaR)の凸結合を特別な一段階の条件付きリスク尺度として用いて、我々は、リスク回避型MDPを、強化されたアクション空間を持つリスク中立型として再構成し、即時報酬の操作を行う。
本研究は,リスク・アバース・セッティングが分散を低減し,その結果のロバスト性を高めることを示唆するものである。
論文 参考訳(メタデータ) (2023-01-14T21:43:18Z) - One Risk to Rule Them All: A Risk-Sensitive Perspective on Model-Based
Offline Reinforcement Learning [25.218430053391884]
両問題に共同で対処するためのメカニズムとしてリスク感受性を提案する。
相対的不確実性へのリスク回避は、環境に悪影響を及ぼす可能性のある行動を妨げる。
実験の結果,提案アルゴリズムは決定論的ベンチマーク上での競合性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-11-30T21:24:11Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Averse Offline Reinforcement Learning [46.383648750385575]
高度なアプリケーションでRL(Training Reinforcement Learning)エージェントを訓練することは、探索に伴うリスクのため、あまりにも禁じられている可能性がある。
O-RAAC(Offline Risk-Averse Actor-Critic)は,完全オフライン環境でリスク-Averseポリシーを学習可能なモデルフリーRLアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-10T10:27:49Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。