論文の概要: Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation
- arxiv url: http://arxiv.org/abs/2307.02842v2
- Date: Sat, 18 Nov 2023 01:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 18:47:24.747166
- Title: Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation
- Title(参考訳): 関数近似を用いたCVaR強化学習の高速化
- Authors: Yu Chen, Yihan Du, Pihe Hu, Siwei Wang, Desheng Wu, Longbo Huang
- Abstract要約: リスクに敏感な強化学習(RL)は、期待される報酬とリスクのバランスをとる政策を最適化することを目的としている。
本稿では,線形および一般関数近似の下での反復条件値-アット・リスク(CVaR)目標を用いたリスク感応性RLの新規な定式化について検討する。
- 参考スコア(独自算出の注目度): 57.6775169085215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Risk-sensitive reinforcement learning (RL) aims to optimize policies that
balance the expected reward and risk. In this paper, we investigate a novel
risk-sensitive RL formulation with an Iterated Conditional Value-at-Risk (CVaR)
objective under linear and general function approximations. This new
formulation, named ICVaR-RL with function approximation, provides a principled
way to guarantee safety at each decision step. For ICVaR-RL with linear
function approximation, we propose a computationally efficient algorithm
ICVaR-L, which achieves an
$\widetilde{O}(\sqrt{\alpha^{-(H+1)}(d^2H^4+dH^6)K})$ regret, where $\alpha$ is
the risk level, $d$ is the dimension of state-action features, $H$ is the
length of each episode, and $K$ is the number of episodes. We also establish a
matching lower bound $\Omega(\sqrt{\alpha^{-(H-1)}d^2K})$ to validate the
optimality of ICVaR-L with respect to $d$ and $K$. For ICVaR-RL with general
function approximation, we propose algorithm ICVaR-G, which achieves an
$\widetilde{O}(\sqrt{\alpha^{-(H+1)}DH^4K})$ regret, where $D$ is a dimensional
parameter that depends on the eluder dimension and covering number.
Furthermore, our analysis provides several novel techniques for risk-sensitive
RL, including an efficient approximation of the CVaR operator, a new ridge
regression with CVaR-adapted features, and a refined elliptical potential
lemma.
- Abstract(参考訳): リスクセンシティブ強化学習(rl)は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下での反復条件値-アット・リスク(CVaR)目標を用いたリスク感応性RLの新規な定式化について検討する。
関数近似を備えた ICVaR-RL と呼ばれるこの新しい定式化は、各決定ステップにおける安全性を保証するための原則化された方法を提供する。
線形関数近似を持つicvar-rlに対して、計算効率の良いアルゴリズムicvar-lを提案し、$\widetilde{o}(\sqrt{\alpha^{-(h+1)}(d^2h^4+dh^6)k})$ regret、ここで$\alpha$はリスクレベル、$d$は状態動作特徴の次元、$h$は各エピソードの長さ、$k$はエピソード数である。
また、一致した下界$\Omega(\sqrt{\alpha^{-(H-1)}d^2K})$を確立して、$d$および$K$に対するCVaR-Lの最適性を検証する。
一般関数近似を用いた ICVaR-RL に対し, アルゴリズム ICVaR-G を提案し, ユーラダー次元と被覆数に依存する次元パラメータを $\widetilde{O}(\sqrt{\alpha^{-(H+1)}DH^4K})$ regret とする。
さらに, CVaR 演算子の効率的な近似, CVaR 適応特徴を持つ新しい隆起回帰, 改良された楕円形の潜在性レムマなど, リスクに敏感な RL の新たな手法が提案されている。
関連論文リスト
- Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。
本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。
我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文 参考訳(メタデータ) (2024-07-10T13:09:52Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文 参考訳(メタデータ) (2024-05-02T20:28:49Z) - Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Is Risk-Sensitive Reinforcement Learning Properly Resolved? [32.42976780682353]
そこで本稿では,RSRL問題に対して最適ポリシーに収束可能な新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。
新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文 参考訳(メタデータ) (2023-07-02T11:47:21Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。