論文の概要: Provably Efficient Partially Observable Risk-Sensitive Reinforcement
Learning with Hindsight Observation
- arxiv url: http://arxiv.org/abs/2402.18149v1
- Date: Wed, 28 Feb 2024 08:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:43:02.580602
- Title: Provably Efficient Partially Observable Risk-Sensitive Reinforcement
Learning with Hindsight Observation
- Title(参考訳): 後向き観察による高能率部分観測型リスク感性強化学習
- Authors: Tonghe Zhang, Yu Chen, Longbo Huang
- Abstract要約: 本稿では,後方観測を部分的に観測可能な決定プロセス(POMDP)フレームワークに統合する新しい定式化を提案する。
本研究では,この設定に適したRLアルゴリズムを初めて提案する。
これらの手法は、強化学習の理論的研究に特に関心がある。
- 参考スコア(独自算出の注目度): 35.278669159850146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work pioneers regret analysis of risk-sensitive reinforcement learning
in partially observable environments with hindsight observation, addressing a
gap in theoretical exploration. We introduce a novel formulation that
integrates hindsight observations into a Partially Observable Markov Decision
Process (POMDP) framework, where the goal is to optimize accumulated reward
under the entropic risk measure. We develop the first provably efficient RL
algorithm tailored for this setting. We also prove by rigorous analysis that
our algorithm achieves polynomial regret
$\tilde{O}\left(\frac{e^{|{\gamma}|H}-1}{|{\gamma}|H}H^2\sqrt{KHS^2OA}\right)$,
which outperforms or matches existing upper bounds when the model degenerates
to risk-neutral or fully observable settings. We adopt the method of
change-of-measure and develop a novel analytical tool of beta vectors to
streamline mathematical derivations. These techniques are of particular
interest to the theoretical study of reinforcement learning.
- Abstract(参考訳): この研究は、部分的に観測可能な環境でのリスクに敏感な強化学習を、後から観察することで、理論的探索のギャップに対処する。
本稿では,後方観測を部分的に観測可能なマルコフ決定プロセス(POMDP)フレームワークに統合する新しい定式化を導入する。
本研究では,この設定に適したRLアルゴリズムを初めて提案する。
また厳密な解析により、我々のアルゴリズムは多項式後悔を$\tilde{O}\left(\frac{e^{|{\gamma}|H}-1}{|{\gamma}|H}H^2\sqrt{KHS^2OA}\right)$とし、モデルがリスクニュートラルあるいは完全に観測可能な設定に縮退した場合に、既存の上限より優れているか、あるいは一致していることを示す。
そこで本研究では,ベータベクターの新たな解析ツールを開発し,数学的導出を合理化する手法を提案する。
これらの手法は強化学習の理論研究に特に興味を寄せている。
関連論文リスト
- Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Horizon-Free and Instance-Dependent Regret Bounds for Reinforcement
Learning with General Function Approximation [26.277745106128197]
一般関数近似を用いた強化学習における長期計画地平線問題に対処するアルゴリズムを提案する。
導出残差は、線形混合MDPを対数因子まで特殊化する場合のミニマックス下限と一致するため、エンフシャープと見なされる。
このような地平線に依存しない、インスタンスに依存しない、鋭い後悔に満ちたヒンジの達成は、(i)新しいアルゴリズム設計と(ii)きめ細かい解析に基づいている。
論文 参考訳(メタデータ) (2023-12-07T17:35:34Z) - Nonparametric Linear Feature Learning in Regression Through Regularisation [0.0]
連立線形特徴学習と非パラメトリック関数推定のための新しい手法を提案する。
代替最小化を用いることで、データを反復的に回転させ、先頭方向との整合性を改善する。
提案手法の予測リスクは,最小限の仮定と明示的なレートで最小限のリスクに収束することを確認した。
論文 参考訳(メタデータ) (2023-07-24T12:52:55Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - It begins with a boundary: A geometric view on probabilistically robust learning [6.877576704011329]
我々はそのような方法の1つの新鮮で幾何学的な見方を取る --確率論的ロバスト学習(PRL)
我々は, 新規緩和法を用いて, オリジナルおよび修正問題の解が存在することを証明した。
また,適切な$Gamma$-convergence解析により,原型および修正型PRLモデルがリスク最小化と対向トレーニングの間を介在する方法を明らかにした。
論文 参考訳(メタデータ) (2023-05-30T06:24:30Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Exponential Bellman Equation and Improved Regret Bounds for
Risk-Sensitive Reinforcement Learning [106.20712175398275]
エントロピーリスク尺度に基づいて,リスク感応性強化学習(RL)について検討した。
我々は、既存のアルゴリズムの欠陥と、そのようなギャップをもたらすそれらの分析を識別する。
これらの分析的およびアルゴリズム的革新が組み合わさって、既存のものに対する後悔の上限を改善できることを示す。
論文 参考訳(メタデータ) (2021-11-06T19:35:18Z) - The Eigenlearning Framework: A Conservation Law Perspective on Kernel
Regression and Wide Neural Networks [1.6519302768772166]
テストリスクとカーネルリッジ回帰の他の一般化指標について、簡単なクローズドフォーム推定を導出する。
関数の正規直交基底を学習するKRRの能力を制限するシャープな保存法則を同定する。
論文 参考訳(メタデータ) (2021-10-08T06:32:07Z) - Surveillance Evasion Through Bayesian Reinforcement Learning [78.79938727251594]
ランダム終端の強度が全く不明な2次元連続経路計画問題を考える。
これらのオブザーバーの監視強度は未知であり、反復的な経路計画を通じて学ぶ必要がある。
論文 参考訳(メタデータ) (2021-09-30T02:29:21Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。