論文の概要: Provably Efficient Risk-Sensitive Reinforcement Learning: Iterated CVaR
and Worst Path
- arxiv url: http://arxiv.org/abs/2206.02678v2
- Date: Thu, 11 May 2023 06:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 19:07:40.450283
- Title: Provably Efficient Risk-Sensitive Reinforcement Learning: Iterated CVaR
and Worst Path
- Title(参考訳): 効果的なリスク感応強化学習:反復cvarと最悪パス
- Authors: Yihan Du, Siwei Wang, Longbo Huang
- Abstract要約: 本稿では,各段階における報酬対ゴーのテールを最大化することを目的とした,反復型CVaR RL(Iterated CVaR RL)という,新たなエピソード型リスク感応型強化学習(RL)問題について検討する。
この定式化は、意思決定プロセスを通して強いリスク回避を要求する現実世界のタスクに適用できる。
- 参考スコア(独自算出の注目度): 40.4378338001229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study a novel episodic risk-sensitive Reinforcement
Learning (RL) problem, named Iterated CVaR RL, which aims to maximize the tail
of the reward-to-go at each step, and focuses on tightly controlling the risk
of getting into catastrophic situations at each stage. This formulation is
applicable to real-world tasks that demand strong risk avoidance throughout the
decision process, such as autonomous driving, clinical treatment planning and
robotics. We investigate two performance metrics under Iterated CVaR RL, i.e.,
Regret Minimization and Best Policy Identification. For both metrics, we design
efficient algorithms ICVaR-RM and ICVaR-BPI, respectively, and provide nearly
matching upper and lower bounds with respect to the number of episodes $K$. We
also investigate an interesting limiting case of Iterated CVaR RL, called Worst
Path RL, where the objective becomes to maximize the minimum possible
cumulative reward. For Worst Path RL, we propose an efficient algorithm with
constant upper and lower bounds. Finally, our techniques for bounding the
change of CVaR due to the value function shift and decomposing the regret via a
distorted visitation distribution are novel, and can find applications in other
risk-sensitive RL problems.
- Abstract(参考訳): 本稿では,各段階における報酬の尾の最大化を目標とし,各段階における破滅的な状況に陥るリスクを厳格に制御することを目的とした,新たなエピソード型リスク感応型強化学習(RL)問題であるIterated CVaR RLについて検討する。
この定式化は、自律運転、臨床治療計画、ロボット工学など、意思決定プロセスを通して強いリスク回避を要求する現実世界のタスクに適用できる。
CVaR RLに基づく2つの性能指標,すなわちレジスト最小化とベストポリシー同定について検討する。
いずれの指標も,効率的なアルゴリズムであるCVaR-RMとCVaR-BPIを設計し,各エピソード数に対してほぼ一致する上界と下界を提供する。
また,最小累積報酬の最大化を目的とした反復CVaR RL(Worst Path RL)の興味深い制限事例についても検討した。
ワーストパス RL に対して,定数な上界と下界を持つ効率的なアルゴリズムを提案する。
最後に, CVaRの値関数シフトによる変化と, 歪んだ訪問分布による後悔を分解する手法は, 新規であり, 他のリスクに敏感なRL問題にも適用できる。
関連論文リスト
- The Fallacy of Minimizing Cumulative Regret in the Sequential Task Setting [11.834850394160608]
現実世界のRLアプリケーションでは、タスク間のヒューマン・イン・ザ・ループの決定は、しばしば非定常性をもたらす。
以上の結果から, 課題非定常性は, 累積後悔(CR)と単純後悔(SR)との間により制限的なトレードオフをもたらすことが明らかとなった。
これらの知見は,タスク変更に対応するためには,非定常環境における探索の増加が必要であることを示唆している。
論文 参考訳(メタデータ) (2024-03-16T15:29:22Z) - Efficient Off-Policy Safe Reinforcement Learning Using Trust Region
Conditional Value at Risk [16.176812250762666]
TRCと呼ばれるオンライン安全なRL法は、信頼領域法を用いてCVaR制約されたRL問題を扱う。
複雑な環境下での優れた性能を実現し、安全制約を迅速に満たすためには、RL法を効率的にサンプリングする必要がある。
本稿では,分散シフトの効果を低減できる新しいサロゲート関数を提案するとともに,リプレイバッファから遠く離れないようにするためのアダプティブな信頼領域制約を導入する。
論文 参考訳(メタデータ) (2023-12-01T04:29:19Z) - Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Is Risk-Sensitive Reinforcement Learning Properly Resolved? [32.42976780682353]
そこで本稿では,RSRL問題に対して最適ポリシーに収束可能な新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。
新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文 参考訳(メタデータ) (2023-07-02T11:47:21Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。