論文の概要: Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback
- arxiv url: http://arxiv.org/abs/2307.02842v3
- Date: Mon, 4 Dec 2023 10:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:55:39.281189
- Title: Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback
- Title(参考訳): 機能近似とフィードバックを用いたCVaR強化学習の効率化
- Authors: Yu Chen, Yihan Du, Pihe Hu, Siwei Wang, Desheng Wu, Longbo Huang
- Abstract要約: リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
- 参考スコア(独自算出の注目度): 57.6775169085215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Risk-sensitive reinforcement learning (RL) aims to optimize policies that
balance the expected reward and risk. In this paper, we present a novel
risk-sensitive RL framework that employs an Iterated Conditional Value-at-Risk
(CVaR) objective under both linear and general function approximations,
enriched by human feedback. These new formulations provide a principled way to
guarantee safety in each decision making step throughout the control process.
Moreover, integrating human feedback into risk-sensitive RL framework bridges
the gap between algorithmic decision-making and human participation, allowing
us to also guarantee safety for human-in-the-loop systems. We propose provably
sample-efficient algorithms for this Iterated CVaR RL and provide rigorous
theoretical analysis. Furthermore, we establish a matching lower bound to
corroborate the optimality of our algorithms in a linear context.
- Abstract(参考訳): リスクセンシティブ強化学習(rl)は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,リニア関数近似と一般関数近似の両方にCVaR(Iterated Conditional Value-at-Risk)の目的を取り入れた,リスクに敏感な新しいRLフレームワークを提案する。
これらの新しい定式化は、制御プロセス全体を通して、各意思決定ステップにおける安全性を保証する原則的な方法を提供する。
さらに、人間からのフィードバックをリスクに敏感なRLフレームワークに組み込むことで、アルゴリズム決定と人間の参加のギャップを埋めることができ、ループ内のシステムの安全性も保証できる。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
さらに,線形文脈でアルゴリズムの最適性を相関付けるために,一致した下界を確立する。
関連論文リスト
- Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Risk-Aware Reinforcement Learning through Optimal Transport Theory [4.8951183832371]
本稿では、リスク対応フレームワークを構築するために、最適輸送理論と強化学習(RL)の統合を開拓する。
提案手法は目的関数を修正し,得られたポリシが期待される報酬を最大化するだけでなく,OT距離によって規定されるリスク制約も尊重する。
我々の貢献は、リスク分布、最適値関数、政策行動の間の関係をマッピングする一連の定理で裏付けられている。
論文 参考訳(メタデータ) (2023-09-12T13:55:01Z) - Is Risk-Sensitive Reinforcement Learning Properly Resolved? [32.42976780682353]
そこで本稿では,RSRL問題に対して最適ポリシーに収束可能な新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。
新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文 参考訳(メタデータ) (2023-07-02T11:47:21Z) - Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文 参考訳(メタデータ) (2022-06-29T14:11:15Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。