論文の概要: Sublinear Regret for Learning POMDPs
- arxiv url: http://arxiv.org/abs/2107.03635v1
- Date: Thu, 8 Jul 2021 06:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 13:22:49.984056
- Title: Sublinear Regret for Learning POMDPs
- Title(参考訳): pomdps学習におけるサブリニア後悔
- Authors: Yi Xiong, Ningyuan Chen, Xuefeng Gao, Xiang Zhou
- Abstract要約: 部分的に観測可能なマルコフ決定過程(POMDP)のためのモデルに基づく非割当強化学習について検討する。
そこで本研究では,隠れマルコフモデルに対するスペクトル法によるモーメント推定に基づく学習アルゴリズムを提案する。
我々は,提案した学習アルゴリズムに対して,$O(T2/3sqrtlog T)$の後悔境界を定め,そこでは$T$が学習の地平線となる。
- 参考スコア(独自算出の注目度): 5.675955495285045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the model-based undiscounted reinforcement learning for partially
observable Markov decision processes (POMDPs). The oracle we consider is the
optimal policy of the POMDP with a known environment in terms of the average
reward over an infinite horizon. We propose a learning algorithm for this
problem, building on spectral method-of-moments estimations for hidden Markov
models, the belief error control in POMDPs and upper-confidence-bound methods
for online learning. We establish a regret bound of $O(T^{2/3}\sqrt{\log T})$
for the proposed learning algorithm where $T$ is the learning horizon. This is,
to the best of our knowledge, the first algorithm achieving sublinear regret
with respect to our oracle for learning general POMDPs.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定過程(POMDP)に対するモデルに基づく非説明強化学習について検討した。
私たちが考えるオラクルは、無限の地平線上の平均的な報酬の観点から、既知の環境を持つPOMDPの最適ポリシーである。
本稿では,隠れマルコフモデルに対するスペクトル手法推定,POMDPにおける信念誤り制御,オンライン学習における高信頼化手法に基づく学習アルゴリズムを提案する。
提案する学習アルゴリズムでは,$t$ が学習の地平線である場合,後悔値が$o(t^{2/3}\sqrt{\log t})$ となる。
これは、私たちの知る限りでは、一般のPOMDPを学習するための私たちの託宣に対して、最初のサブ線形後悔を達成するアルゴリズムである。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Imitation Learning in Discounted Linear MDPs without exploration assumptions [58.81226849657474]
ILARLと呼ばれる無限水平線形MDPにおける模倣学習のための新しいアルゴリズムを提案する。
所望の精度$epsilon$から$mathcalO(epsilon-5)$から$mathcalO(epsilon-4)$への依存を改善する。
線形関数近似による数値実験により、ILARLは他のよく使われるアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-03T15:28:44Z) - Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - Posterior Sampling-based Online Learning for Episodic POMDPs [5.797837329787459]
本研究では,遷移モデルと観測モデルが未知のエピソードPOMDPに対するオンライン学習問題を考察する。
ポストリアサンプリングに基づくPOMDPのための強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-16T06:41:13Z) - On Reward Structures of Markov Decision Processes [4.13365552362244]
マルコフ決定過程は、遷移カーネルと報酬関数によってパラメータ化することができる。
ロボット応用の需要に触発された強化学習に関連する様々な「コスト」について検討する。
単一状態値を推定するためのインスタンス固有のエラーを$tildeO(sqrtfractau_sn)$にバインドした新しい推定器を開発する。
論文 参考訳(メタデータ) (2023-08-28T22:29:16Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Learning in Observable POMDPs, without Computationally Intractable
Oracles [23.636033995089587]
我々は,PMDPのための最初のオラクルフリー学習アルゴリズムを合理的な仮定で開発する。
具体的には、「観測可能」なPOMDPで学習するための準ポロリノミカル時間終端アルゴリズムを与えるが、観測可能性とは、状態上のよく分断された分布が観察よりもよく分断された分布を誘導するという仮定である。
論文 参考訳(メタデータ) (2022-06-07T17:05:27Z) - Online Learning for Unknown Partially Observable MDPs [11.458853556386797]
遷移モデルが未知の無限水平平均コストPMDPを観測モデルとして検討する。
自然後サンプリングに基づく強化学習アルゴリズム(POMDP-PSRL)を提案し、$T$が時空である場合に$O(T2/3)$後悔を達成することを示した。
論文 参考訳(メタデータ) (2021-02-25T03:36:13Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。