論文の概要: Tensor Low-rank Approximation of Finite-horizon Value Functions
- arxiv url: http://arxiv.org/abs/2405.17628v1
- Date: Mon, 27 May 2024 19:52:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 23:21:23.711504
- Title: Tensor Low-rank Approximation of Finite-horizon Value Functions
- Title(参考訳): 有限水平値関数のテンソル低ランク近似
- Authors: Sergio Rozada, Antonio G. Marques,
- Abstract要約: 本稿では,有限水平MDPの最適VFを近似する非パラメトリック低ランクアルゴリズムを提案する。
低ランクPARAFACモデルのサイズは各次元に対して加法的に成長し、我々のアプローチを効率的にする。
- 参考スコア(独自算出の注目度): 10.196333441334895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of reinforcement learning is estimating a policy that maps states to actions and maximizes the cumulative reward of a Markov Decision Process (MDP). This is oftentimes achieved by estimating first the optimal (reward) value function (VF) associated with each state-action pair. When the MDP has an infinite horizon, the optimal VFs and policies are stationary under mild conditions. However, in finite-horizon MDPs, the VFs (hence, the policies) vary with time. This poses a challenge since the number of VFs to estimate grows not only with the size of the state-action space but also with the time horizon. This paper proposes a non-parametric low-rank stochastic algorithm to approximate the VFs of finite-horizon MDPs. First, we represent the (unknown) VFs as a multi-dimensional array, or tensor, where time is one of the dimensions. Then, we use rewards sampled from the MDP to estimate the optimal VFs. More precisely, we use the (truncated) PARAFAC decomposition to design an online low-rank algorithm that recovers the entries of the tensor of VFs. The size of the low-rank PARAFAC model grows additively with respect to each of its dimensions, rendering our approach efficient, as demonstrated via numerical experiments.
- Abstract(参考訳): 強化学習の目標は、国家を行動にマッピングし、マルコフ決定プロセス(MDP)の累積報酬を最大化する政策を推定することである。
これは、各状態-作用対に関連する最適(逆)値関数(VF)を最初に推定することで達成されることが多い。
MDPが無限の地平線を持つとき、最適なVFとポリシーは穏やかな条件下で定常である。
しかし、有限水平 MDP では、VF(つまりポリシー)は時間によって異なる。
これは、推定するVFの数が、状態-作用空間のサイズだけでなく、時間的地平線によって増加するため、課題となる。
本稿では,有限水平MDPのVFを近似する非パラメトリック低ランク確率アルゴリズムを提案する。
まず、(未知の)VFを、時間が次元の1つである多次元配列、あるいはテンソルとして表現する。
次に,MDPから採取した報酬を用いて最適なVFを推定する。
より正確には、VFのテンソルのエントリを復元するオンライン低ランクアルゴリズムを設計するために、PARAFAC分解を用いる。
低ランクPARAFACモデルのサイズは各次元に対して加法的に成長し、数値実験により示すように、我々のアプローチは効率的である。
関連論文リスト
- Fast Convergence of Softmax Policy Mirror Ascent [11.540610656150958]
自然ポリシー勾配 (NPG) は共通ポリシー最適化アルゴリズムであり、確率空間におけるミラー上昇と見なすことができる。
我々はこのアルゴリズムを改良し、アクション間の正規化の必要性を排除し、結果の方法を分析する(SPMA参照)。
論文 参考訳(メタデータ) (2024-11-18T20:27:13Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Horizon-Free Regret for Linear Markov Decision Processes [92.02082223856479]
最近の一連の研究は、強化学習における残念な境界が(ほぼ)計画的地平から独立していることを示している。
我々は、人気のある線形マルコフ決定過程(MDP)設定に対して、最初の地平面自由境界を与える。
遷移モデルを明示的に推定し、不均一な値関数を計算する先行研究とは対照的に、直接値関数と信頼集合を推定する。
論文 参考訳(メタデータ) (2024-03-15T23:50:58Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - Tensor and Matrix Low-Rank Value-Function Approximation in Reinforcement Learning [11.317136648551536]
値関数近似は強化学習(RL)の中心的な問題である
本稿では、低ランクアルゴリズムを用いてVF行列をオンラインおよびモデルフリーで推定する、擬似非パラメトリック手法を提案する。
VFは多次元である傾向があるため、従来のVF行列表現をテンソル表現に置き換え、PARAFAC分解を用いてオンラインモデルフリーテンソル低ランクアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-01-21T00:13:54Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。