論文の概要: Risk-Sensitive Reinforcement Learning: Iterated CVaR and the Worst Path
- arxiv url: http://arxiv.org/abs/2206.02678v1
- Date: Mon, 6 Jun 2022 15:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 19:47:43.627762
- Title: Risk-Sensitive Reinforcement Learning: Iterated CVaR and the Worst Path
- Title(参考訳): リスク感性強化学習 : CVaRの反復と最悪の道
- Authors: Yihan Du, Siwei Wang, Longbo Huang
- Abstract要約: CVaR RLは,各ステップにおける報酬の尾の最大化を目的とし,新たなエピソード型リスク感応性強化学習問題である。
CVaR RLの反復は、各段階で破滅的な状況に陥るリスクを厳重に制御することで、常に安全に重点を置いている。
- 参考スコア(独自算出の注目度): 40.4378338001229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study a novel episodic risk-sensitive Reinforcement
Learning (RL) problem, named Iterated CVaR RL, where the objective is to
maximize the tail of the reward-to-go at each step. Different from existing
risk-aware RL formulations, Iterated CVaR RL focuses on safety-at-all-time, by
enabling the agent to tightly control the risk of getting into catastrophic
situations at each stage, and is applicable to important risk-sensitive tasks
that demand strong safety guarantees throughout the decision process, such as
autonomous driving, clinical treatment planning and robotics. We investigate
Iterated CVaR RL with two performance metrics, i.e., Regret Minimization and
Best Policy Identification. For both metrics, we design efficient algorithms
ICVaR-RM and ICVaR-BPI, respectively, and provide matching upper and lower
bounds with respect to the number of episodes $K$. We also investigate an
interesting limiting case of Iterated CVaR RL, called Worst Path RL, where the
objective becomes to maximize the minimum possible cumulative reward, and
propose an efficient algorithm with constant upper and lower bounds. Finally,
the techniques we develop for bounding the change of CVaR due to the value
function shift and decomposing the regret via a distorted visitation
distribution are novel and can find applications in other risk-sensitive online
learning problems.
- Abstract(参考訳): そこで本研究では,cvar rlと呼ばれる,各ステップにおける報酬のテールを最大化することを目的とした,新たなエピソジックリスク感応強化学習(rl)問題について検討する。
既存のリスク対応RLの定式化とは異なり、Iterated CVaR RLは、各段階で破滅的な状況に陥るリスクをエージェントが厳格に制御し、自律運転、臨床治療計画、ロボット工学などの意思決定プロセスを通して強力な安全保証を要求する重要なリスク感受性タスクに適用できる。
本稿では,レギュレット最小化とベストポリシー同定という2つの性能指標を用いた反復CVaR RLについて検討する。
両指標のそれぞれに対して,効率的なアルゴリズムであるCVaR-RMとCVaR-BPIを設計し,各エピソード数に対して,上限値と下限値が一致するようにした。
また,最小限の累積報酬を最大化することを目的とした反復CVaR RL(Worst Path RL)の興味深い制限事例についても検討し,上界と下界が一定である効率的なアルゴリズムを提案する。
最後に、CVaRの値関数シフトによる変化と歪んだ訪問分布による後悔の分解を境界とする手法が新しく、他のリスクに敏感なオンライン学習問題に応用できる。
関連論文リスト
- The Fallacy of Minimizing Cumulative Regret in the Sequential Task Setting [11.834850394160608]
現実世界のRLアプリケーションでは、タスク間のヒューマン・イン・ザ・ループの決定は、しばしば非定常性をもたらす。
以上の結果から, 課題非定常性は, 累積後悔(CR)と単純後悔(SR)との間により制限的なトレードオフをもたらすことが明らかとなった。
これらの知見は,タスク変更に対応するためには,非定常環境における探索の増加が必要であることを示唆している。
論文 参考訳(メタデータ) (2024-03-16T15:29:22Z) - Efficient Off-Policy Safe Reinforcement Learning Using Trust Region
Conditional Value at Risk [16.176812250762666]
TRCと呼ばれるオンライン安全なRL法は、信頼領域法を用いてCVaR制約されたRL問題を扱う。
複雑な環境下での優れた性能を実現し、安全制約を迅速に満たすためには、RL法を効率的にサンプリングする必要がある。
本稿では,分散シフトの効果を低減できる新しいサロゲート関数を提案するとともに,リプレイバッファから遠く離れないようにするためのアダプティブな信頼領域制約を導入する。
論文 参考訳(メタデータ) (2023-12-01T04:29:19Z) - Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Is Risk-Sensitive Reinforcement Learning Properly Resolved? [32.42976780682353]
そこで本稿では,RSRL問題に対して最適ポリシーに収束可能な新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。
新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文 参考訳(メタデータ) (2023-07-02T11:47:21Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。