論文の概要: Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation
- arxiv url: http://arxiv.org/abs/2402.18159v1
- Date: Wed, 28 Feb 2024 08:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:45:47.332142
- Title: Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation
- Title(参考訳): 一般関数近似を用いた確率的リスク感性分布強化学習
- Authors: Yu Chen, Xiangcheng Zhang, Siwei Wang, Longbo Huang
- Abstract要約: 本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 54.61816424792866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of reinforcement learning (RL), accounting for risk is crucial
for making decisions under uncertainty, particularly in applications where
safety and reliability are paramount. In this paper, we introduce a general
framework on Risk-Sensitive Distributional Reinforcement Learning (RS-DisRL),
with static Lipschitz Risk Measures (LRM) and general function approximation.
Our framework covers a broad class of risk-sensitive RL, and facilitates
analysis of the impact of estimation functions on the effectiveness of RSRL
strategies and evaluation of their sample complexity. We design two innovative
meta-algorithms: \texttt{RS-DisRL-M}, a model-based strategy for model-based
function approximation, and \texttt{RS-DisRL-V}, a model-free approach for
general value function approximation. With our novel estimation techniques via
Least Squares Regression (LSR) and Maximum Likelihood Estimation (MLE) in
distributional RL with augmented Markov Decision Process (MDP), we derive the
first $\widetilde{\mathcal{O}}(\sqrt{K})$ dependency of the regret upper bound
for RSRL with static LRM, marking a pioneering contribution towards
statistically efficient algorithms in this domain.
- Abstract(参考訳): 強化学習(rl)の分野では、特に安全性と信頼性が最優先のアプリケーションにおいて、不確実性の下で意思決定を行うにはリスクの計算が不可欠である。
本稿では,リスク感性分布強化学習(RS-DisRL)の一般的な枠組みとして,静的リプシッツリスク対策(LRM)と一般関数近似を導入する。
本フレームワークはリスクに敏感なRLの幅広いクラスを網羅し,RSRL戦略の有効性に対する推定関数の影響の分析と,その複雑さの評価を容易にする。
モデルに基づく関数近似のモデルベース戦略である \textt{RS-DisRL-M} と、一般値関数近似のモデルフリーアプローチである \textt{RS-DisRL-V} である。
拡張マルコフ決定過程 (MDP) を用いた分布RLにおける最小二乗回帰 (LSR) と最大同値推定 (MLE) による新しい推定手法により、この領域における統計的に効率的なアルゴリズムへの先駆的な貢献を象徴し、RSRL に対する後悔上界の静的 LRM による依存性を最初の$\widetilde{\mathcal{O}}(\sqrt{K})$とする。
関連論文リスト
- Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。
本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。
我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文 参考訳(メタデータ) (2024-07-10T13:09:52Z) - Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence [15.720824593964027]
リスクに敏感な強化学習(RL)は、高い評価のアプリケーションにおいて信頼性の高い性能を維持するために不可欠である。
本稿では、一般的なコヒーレントリスク対策を用いたリスク感応型DRLのポリシー勾配法を提案する。
また、カテゴリー分布ポリシー評価と軌道勾配推定に基づくカテゴリー分布ポリシー勾配アルゴリズム(CDPG)を設計する。
論文 参考訳(メタデータ) (2024-05-23T16:16:58Z) - Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Is Risk-Sensitive Reinforcement Learning Properly Resolved? [32.42976780682353]
そこで本稿では,RSRL問題に対して最適ポリシーに収束可能な新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。
新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文 参考訳(メタデータ) (2023-07-02T11:47:21Z) - Risk-Sensitive Policy with Distributional Reinforcement Learning [4.523089386111081]
本研究は、リスクに敏感なシーケンシャルな意思決定ポリシーを導出する、分布RLに基づく新しい手法を提案する。
リスクベースのユーティリティ関数$U$と名付けられ、任意の分布RLアルゴリズムによって自然に学習されたランダムリターン分布$Z$から抽出することができる。
これにより、リスク最小化と期待されるリターン最大化の間の完全な潜在的なトレードオフをまたがることができる。
論文 参考訳(メタデータ) (2022-12-30T14:37:28Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。