論文の概要: The Number of Trials Matters in Infinite-Horizon General-Utility Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2409.15128v1
- Date: Mon, 23 Sep 2024 15:34:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 14:23:12.746570
- Title: The Number of Trials Matters in Infinite-Horizon General-Utility Markov Decision Processes
- Title(参考訳): 無限水平汎用マルコフ決定過程における試行数
- Authors: Pedro P. Santos, Alberto Sardinha, Francisco S. Melo,
- Abstract要約: 無限水平GUMDPにおいて試行回数が重要な役割を担い、ある政策の期待性能は一般に試行数に依存することを示す。
まず, 割引GUMDPによる政策評価について検討し, GUMDPの有限と無限の試験式間のミスマッチについて, 下位と上位の境界を証明した。
第2に、GUMDPの異なるクラスが、有限と無限の試行公式のミスマッチにどのように影響するかを研究することで、平均的なGUMDPに対処する。
- 参考スコア(独自算出の注目度): 3.8779763612314633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The general-utility Markov decision processes (GUMDPs) framework generalizes the MDPs framework by considering objective functions that depend on the frequency of visitation of state-action pairs induced by a given policy. In this work, we contribute with the first analysis on the impact of the number of trials, i.e., the number of randomly sampled trajectories, in infinite-horizon GUMDPs. We show that, as opposed to standard MDPs, the number of trials plays a key-role in infinite-horizon GUMDPs and the expected performance of a given policy depends, in general, on the number of trials. We consider both discounted and average GUMDPs, where the objective function depends, respectively, on discounted and average frequencies of visitation of state-action pairs. First, we study policy evaluation under discounted GUMDPs, proving lower and upper bounds on the mismatch between the finite and infinite trials formulations for GUMDPs. Second, we address average GUMDPs, studying how different classes of GUMDPs impact the mismatch between the finite and infinite trials formulations. Third, we provide a set of empirical results to support our claims, highlighting how the number of trajectories and the structure of the underlying GUMDP influence policy evaluation.
- Abstract(参考訳): GUMDP(General-utility Markov decision process)フレームワークは、与えられたポリシーによって誘導される状態-動作ペアの訪問頻度に依存する客観的関数を考慮し、MDPのフレームワークを一般化する。
本研究では,無限水平GUMDPにおける試行回数,すなわちランダムにサンプリングされた軌道数の影響に関する最初の分析に貢献する。
標準のMDPとは対照的に、無限水平GUMDPにおいて試行回数はキーロールであり、与えられたポリシーの期待性能は一般に試行数に依存していることを示す。
目的関数は,それぞれ,ディスカウントと平均的なGUMDPの両方を,ディスカウントと平均的なステートアクションペアの訪問頻度に依存している。
まず, 割引GUMDPによる政策評価について検討し, GUMDPの有限および無限の試験式間のミスマッチについて, 下位および上位境界を証明した。
第2に、GUMDPの異なるクラスが、有限と無限の試行公式のミスマッチにどのように影響するかを研究することで、平均的なGUMDPに対処する。
第3に,我々の主張を裏付ける実証的な結果の集合を提供し,軌道の数と基礎となるGUMDPの構造が政策評価にどのように影響するかを強調した。
関連論文リスト
- Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Off-Policy Evaluation for Episodic Partially Observable Markov Decision
Processes under Non-Parametric Models [2.3411358616430435]
本研究では,連続状態を持つ部分観測可能マルコフ決定過程(POMDP)の非政治評価(OPE)問題について検討する。
最近提案された因果推論フレームワークに動機付けられ,政策価値を推定する非パラメトリック同定結果を開発した。
これは非パラメトリックモデルの下でのPOMDPにおけるOPEに対する最初の有限サンプル誤差である。
論文 参考訳(メタデータ) (2022-09-21T01:44:45Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Towards Return Parity in Markov Decision Processes [36.96748490812215]
マルコフ決定過程(MDP)における公平性問題について検討する。
我々は、異なる人口集団のMDPが同じ報酬を達成するために必要となるフェアネスの概念であるリターンパリティを提案する。
解析定理により、状態訪問分布アライメントを伴う共有グループポリシーを学習することにより、戻り値の不一致を軽減するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-19T23:25:38Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z) - A Robust Functional EM Algorithm for Incomplete Panel Count Data [66.07942227228014]
完全無作為な仮定(MCAR)の下での数え上げ過程の平均関数を推定する機能的EMアルゴリズムを提案する。
提案アルゴリズムは、いくつかの一般的なパネル数推定手法をラップし、不完全数にシームレスに対処し、ポアソン過程の仮定の誤特定に頑健である。
本稿では, 数値実験による提案アルゴリズムの有用性と喫煙停止データの解析について述べる。
論文 参考訳(メタデータ) (2020-03-02T20:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。