論文の概要: Minimax Weight Learning for Absorbing MDPs
- arxiv url: http://arxiv.org/abs/2301.03183v1
- Date: Mon, 9 Jan 2023 06:32:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 17:35:11.574406
- Title: Minimax Weight Learning for Absorbing MDPs
- Title(参考訳): mdps吸収のためのミニマックス重み学習
- Authors: Fengyin Li, Yuqiang Li, Xianyi Wu
- Abstract要約: MDPを吸収する政策評価について検討する。
そこで本稿では,状態行動占有率の重要度によって予測されるリターンを直接推定する,いわゆるMWLAアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.5156484100374059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning policy evaluation problems are often modeled as finite
or discounted/averaged infinite-horizon MDPs. In this paper, we study
undiscounted off-policy policy evaluation for absorbing MDPs. Given the dataset
consisting of the i.i.d episodes with a given truncation level, we propose a
so-called MWLA algorithm to directly estimate the expected return via the
importance ratio of the state-action occupancy measure. The Mean Square Error
(MSE) bound for the MWLA method is investigated and the dependence of
statistical errors on the data size and the truncation level are analyzed. With
an episodic taxi environment, computational experiments illustrate the
performance of the MWLA algorithm.
- Abstract(参考訳): 強化学習政策評価問題は、有限あるいは割引/平均無限水平MDPとしてモデル化されることが多い。
本稿では,MDPを吸収する政策評価について検討する。
与えられたトランケーションレベルのi.i.dエピソードからなるデータセットを考慮し、状態-行動占有率の重要度によって予測されるリターンを直接推定するMWLAアルゴリズムを提案する。
MWLA法に結合した平均角誤差(MSE)を調査し,データサイズとトランケーションレベルに対する統計的誤差の依存性を解析した。
エピソードタクシー環境では、計算実験によりMWLAアルゴリズムの性能が示されている。
関連論文リスト
- Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Meta Learning in the Continuous Time Limit [36.23467808322093]
モデルAメタラーニング(MAML)の学習力学の基礎となる常微分方程式(ODE)を確立する。
本稿では,既存のMAMLトレーニング手法に関連する計算負担を大幅に軽減するBI-MAMLトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-19T01:47:31Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。