論文の概要: Solving Finite-Horizon MDPs via Low-Rank Tensors
- arxiv url: http://arxiv.org/abs/2501.10598v1
- Date: Fri, 17 Jan 2025 23:10:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:21:40.138021
- Title: Solving Finite-Horizon MDPs via Low-Rank Tensors
- Title(参考訳): 低ランクテンソルによる有限-水平MDPの解法
- Authors: Sergio Rozada, Jose Luis Orejuela, Antonio G. Marques,
- Abstract要約: 有限水平マルコフ決定過程(MDP)における最適政策の学習問題について検討する。
有限水平 MDP では、ポリシーと従って値関数 (VF) は定常ではない。
本稿では,有限ホライゾン MDP の VF を低ランクテンソルとしてモデル化することを提案する。
- 参考スコア(独自算出の注目度): 9.072279909866845
- License:
- Abstract: We study the problem of learning optimal policies in finite-horizon Markov Decision Processes (MDPs) using low-rank reinforcement learning (RL) methods. In finite-horizon MDPs, the policies, and therefore the value functions (VFs) are not stationary. This aggravates the challenges of high-dimensional MDPs, as they suffer from the curse of dimensionality and high sample complexity. To address these issues, we propose modeling the VFs of finite-horizon MDPs as low-rank tensors, enabling a scalable representation that renders the problem of learning optimal policies tractable. We introduce an optimization-based framework for solving the Bellman equations with low-rank constraints, along with block-coordinate descent (BCD) and block-coordinate gradient descent (BCGD) algorithms, both with theoretical convergence guarantees. For scenarios where the system dynamics are unknown, we adapt the proposed BCGD method to estimate the VFs using sampled trajectories. Numerical experiments further demonstrate that the proposed framework reduces computational demands in controlled synthetic scenarios and more realistic resource allocation problems.
- Abstract(参考訳): 低ランク強化学習(RL)法を用いた有限水平マルコフ決定過程(MDP)における最適政策の学習問題について検討する。
有限水平 MDP では、ポリシーと従って値関数 (VF) は定常ではない。
このことは、次元の呪いと高サンプルの複雑さに悩まされるため、高次元のMDPの難しさを増す。
これらの問題に対処するために,有限水平MDPのVFを低ランクテンソルとしてモデル化することを提案する。
本稿では,Bellman方程式を低ランク制約で解くための最適化ベースのフレームワークと,BCD(Block-coordinate descent)アルゴリズムとBCGD(Block-coordinate gradient descent)アルゴリズムを導入する。
システムダイナミクスが不明なシナリオに対しては,提案したBCGD法を適用し,サンプル軌道を用いてVFを推定する。
数値実験により,提案手法は,制御された合成シナリオやより現実的な資源配分問題において,計算要求の低減を図っている。
関連論文リスト
- Alternating Minimization Schemes for Computing Rate-Distortion-Perception Functions with $f$-Divergence Perception Constraints [10.564071872770146]
離散メモリレスソースに対するRDPF(Ralse-Distortion-Perception Function)の計算について検討した。
最適パラメトリック解を特徴付ける。
歪みと知覚制約について十分な条件を提供する。
論文 参考訳(メタデータ) (2024-08-27T12:50:12Z) - Floorplanning of VLSI by Mixed-Variable Optimization [42.82770651937298]
本稿では,混合変数のフロアプランニング問題を解くためのメメティックアルゴリズムを提案する。
提案アルゴリズムは、著名なB*木に基づくフロアプランニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2024-01-27T06:34:16Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Linear programming-based solution methods for constrained POMDPs [0.5156484100374059]
制約付き部分観測可能なマルコフ決定過程(CPOMDP)は、様々な実世界の現象をモデル化するために用いられている。
我々は、CPOMDPの近似ポリシーを生成するために、グリッドベースの近似と線形プログラミング(LP)モデルを組み合わせる。
論文 参考訳(メタデータ) (2022-06-28T15:22:24Z) - Value-Function-based Sequential Minimization for Bi-level Optimization [52.39882976848064]
勾配に基づくBi-Level Optimization (BLO)法は、現代の学習課題に広く応用されている。
機能的制約のあるBLOや悲観的なBLOなど、難解なシナリオでBLOを解くことができる勾配ベースの方法はほとんどない。
上記の問題に対処するために,BVFSM(Bi-level Value-Function-based Sequential Minimization)を提案する。
論文 参考訳(メタデータ) (2021-10-11T03:13:39Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Model-Free Reinforcement Learning for Optimal Control of MarkovDecision
Processes Under Signal Temporal Logic Specifications [7.842869080999489]
有限水平マルコフ決定過程に対する最適ポリシーを求めるためのモデルフリー強化学習アルゴリズムを提案する。
本稿では,不確実性および性能目標下での複雑なミッションにおけるロボット動作計画の文脈におけるアプローチの有効性について述べる。
論文 参考訳(メタデータ) (2021-09-27T22:44:55Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。