論文の概要: Cascaded Gaps: Towards Gap-Dependent Regret for Risk-Sensitive
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.03110v1
- Date: Mon, 7 Mar 2022 03:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 15:59:02.811709
- Title: Cascaded Gaps: Towards Gap-Dependent Regret for Risk-Sensitive
Reinforcement Learning
- Title(参考訳): カスケードギャップ:リスク感性強化学習のためのギャップ依存レグレクトを目指して
- Authors: Yingjie Fei, Ruitu Xu
- Abstract要約: エントロピー的リスク尺度に基づいて,リスクに敏感な強化学習のためのギャップ依存的後悔保証について検討した。
マルコフ決定過程における2つのモデル自由アルゴリズムに対する非漸近的および対数的後悔境界を導出する。
- 参考スコア(独自算出の注目度): 14.036298712230233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study gap-dependent regret guarantees for risk-sensitive
reinforcement learning based on the entropic risk measure. We propose a novel
definition of sub-optimality gaps, which we call cascaded gaps, and we discuss
their key components that adapt to the underlying structures of the problem.
Based on the cascaded gaps, we derive non-asymptotic and logarithmic regret
bounds for two model-free algorithms under episodic Markov decision processes.
We show that, in appropriate settings, these bounds feature exponential
improvement over existing ones that are independent of gaps. We also prove
gap-dependent lower bounds, which certify the near optimality of the upper
bounds.
- Abstract(参考訳): 本稿では,エントロピー的リスク尺度に基づくリスク依存型強化学習におけるギャップ依存的後悔保証について検討する。
そこで,我々はカスケードギャップと呼ぶサブ最適ギャップの新たな定義を提案し,問題の根底構造に適応する重要なコンポーネントについて考察する。
カスケードされたギャップに基づいて、マルコフ決定過程の下での2つのモデル自由アルゴリズムに対する非漸近的および対数的後悔境界を導出する。
適切な設定で、これらの境界はギャップに依存しない既存の境界よりも指数関数的に改善されていることを示す。
また、上界の近似最適性を証明するような、ギャップ依存的な下界も証明する。
関連論文リスト
- Learning to Explore with Lagrangians for Bandits under Unknown Linear Constraints [8.784438985280094]
線形制約が未知の多腕バンディットにおける純粋探索として問題を研究する。
まず、制約下での純粋な探索のために、サンプルの複雑さを低く抑えたラグランジアン緩和を提案する。
第二に、ラグランジアンの下界と凸の性質を利用して、トラック・アンド・ストップとガミファイド・エクスプローラー(LATSとLAGEX)の2つの計算効率の良い拡張を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:26:14Z) - Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Regret Bounds for Markov Decision Processes with Recursive Optimized
Certainty Equivalents [3.8980564330208662]
本稿では,新しいエピソード型リスク感応型強化学習法を提案する。
本研究では,値反復と高信頼度境界に基づく効率的な学習アルゴリズムを設計する。
我々の限界は,提案アルゴリズムが達成した後悔率は,エピソード数とアクション数に最適に依存することを示している。
論文 参考訳(メタデータ) (2023-01-30T01:22:31Z) - Tight Guarantees for Interactive Decision Making with the
Decision-Estimation Coefficient [51.37720227675476]
我々は、決定推定係数の新たな変種を導入し、それを用いて、3つの面における事前の作業を改善する新しい下界を導出する。
我々は同じ量でスケールした後悔について上界を与え、フォスター等における上界と下界の間のギャップの1つを除いて全てを閉じる。
この結果は、後悔のフレームワークとPACフレームワークの両方に適用され、我々が期待するいくつかの新しい分析とアルゴリズム設計技術を利用して、より広範な利用が期待できる。
論文 参考訳(メタデータ) (2023-01-19T18:24:08Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z) - Bandits with Mean Bounds [33.00136718515412]
本研究では,各アームの平均値に有界な側情報を与えるバンディット問題の変種について検討する。
これらがより厳密なガウス因子の推定に変換されることを証明し、これらの推定を利用する新しいアルゴリズムを開発する。
論文 参考訳(メタデータ) (2020-02-19T19:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。