Fugu-MT 論文翻訳(概要): Low-Rank MDPs with Continuous Action Spaces

論文の概要: Low-Rank MDPs with Continuous Action Spaces

arxiv url: http://arxiv.org/abs/2311.03564v1
Date: Mon, 6 Nov 2023 22:05:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-08 17:38:43.610300
Title: Low-Rank MDPs with Continuous Action Spaces
Title（参考訳）: 連続行動空間を有する低域MDP
Authors: Andrew Bennett, Nathan Kallus, Miruna Oprescu
Abstract要約: 本研究では,このような手法を連続的な動作を伴う設定に拡張する問題について検討する。アルゴリズムを変更せずに、動作が連続することを許された場合、同様のPAC境界が得られることを示す。
参考スコア（独自算出の注目度）: 47.9857762529495
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Low-Rank Markov Decision Processes (MDPs) have recently emerged as a promising framework within the domain of reinforcement learning (RL), as they allow for provably approximately correct (PAC) learning guarantees while also incorporating ML algorithms for representation learning. However, current methods for low-rank MDPs are limited in that they only consider finite action spaces, and give vacuous bounds as $|\mathcal{A}| \to \infty$, which greatly limits their applicability. In this work, we study the problem of extending such methods to settings with continuous actions, and explore multiple concrete approaches for performing this extension. As a case study, we consider the seminal FLAMBE algorithm (Agarwal et al., 2020), which is a reward-agnostic method for PAC RL with low-rank MDPs. We show that, without any modifications to the algorithm, we obtain similar PAC bound when actions are allowed to be continuous. Specifically, when the model for transition functions satisfies a Holder smoothness condition w.r.t. actions, and either the policy class has a uniformly bounded minimum density or the reward function is also Holder smooth, we obtain a polynomial PAC bound that depends on the order of smoothness.
Abstract（参考訳）: 低ランクマルコフ決定プロセス(mdps)は、最近、強化学習(rl)領域内で有望なフレームワークとして登場し、ほぼ正しい(pac)学習保証を可能にしつつ、表現学習のためのmlアルゴリズムも取り入れている。しかし、現在の低ランク MDP の手法は、有限作用空間のみを考慮し、空境界を $|\mathcal{A}| \to \infty$ とし、それらの適用性を大幅に制限する点で制限されている。本研究では,このような手法を連続的な動作を伴う設定に拡張する問題について検討し,この拡張を行うための複数の具体的なアプローチを検討する。ケーススタディとして,低ランクMDPを用いたPAC RLの報酬非依存手法であるセミナルFLAMBEアルゴリズム(Agarwal et al., 2020)を検討する。アルゴリズムの変更がなければ,アクションの連続性が許される場合に類似したpacバウンドが得られることを示す。具体的には、遷移関数のモデルがホルダー滑らか性条件 w.r.t. 作用を満たし、ポリシークラスが一様に有界な最小密度を持つか、報酬関数もホルダー滑らかであるとき、滑らか性の順序に依存する多項式pacバウンドを得る。

関連論文リスト

Deep Reinforcement Learning with Gradient Eligibility Traces [25.47053572017618]
本研究では, 高度強化学習において, 高速かつ安定なオフ政治学習を実現するための勾配に基づく3つの手法を提案する。我々は、経験的再生に適合する前方視定式化と、ストリーミングアルゴリズムと互換性のある後方視定式化を提供する。提案アルゴリズムは, MuJoCo 環境と MinAtar 環境においてPPO と StreamQ の両方より優れていることを示す。
論文参考訳（メタデータ） (2025-07-12T00:12:05Z)
Learning Infinite-Horizon Average-Reward Linear Mixture MDPs of Bounded Span [16.49229317664822]
本稿では,無限水平平均逆線形混合マルコフ決定過程(MDPs)を学習するための計算抽出可能なアルゴリズムを提案する。線形混合MDPのアルゴリズムは,$widetildemathcalO(dsqrtmathrmsp(v*)T)$$$T$以上の最小限の後悔上限を実現する。
論文参考訳（メタデータ） (2024-10-19T05:45:50Z)
B$^3$RTDP: A Belief Branch and Bound Real-Time Dynamic Programming Approach to Solving POMDPs [17.956744635160568]
我々は,Belief Branch and Bound RTDP (B$3$RTDP) と呼ぶRTDP-Belアルゴリズムの拡張を提案する。我々のアルゴリズムは有界値関数表現を使い、これを2つの新しい方法で活用する。 B$3$RTDPは、既知のPOMDP問題に対する最先端のSARSOP解法よりも少ない時間で大きなリターンが得られることを実証的に実証した。
論文参考訳（メタデータ） (2022-10-22T21:42:59Z)
Continuous MDP Homomorphisms and Homomorphic Policy Gradient [51.25171126424949]
MDP準同型の定義を拡張し、連続状態空間における連続的な作用を包含する。本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-15T15:26:49Z)
Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs [24.256960622176305]
エピソードマルコフ決定過程におけるPAC RLのサンプル複雑性について, 上界と下界の整合性について検討した。私たちの境界は、決定論的リターンギャップ(deterministic return gap)と呼ばれる状態-作用ペアに対して、新たな最適ギャップ(sub-optimality gap)を特徴とする。彼らの設計と分析は、最小フローや最大カットといったグラフ理論の概念を含む新しいアイデアを採用している。
論文参考訳（メタデータ） (2022-03-17T11:19:41Z)
Reinforcement Learning for Finite-Horizon Restless Multi-Armed Multi-Action Bandits [8.136957953239254]
本稿では、R(MA)2Bと呼ばれる複数の動作を持つ有限ホライゾンレス・マルチアームバンディット問題について検討する。各アームの状態は、制御されたマルコフ決定プロセス(MDP)に従って進化し、アームを引く報酬は、対応するMDPの現在の状態と、取られたアクションの両方に依存する。最適政策の発見は典型的には難解であるため,我々はOccupancy-Measured-Reward Index Policyと呼ぶ,計算に訴える指標ポリシーを提案する。
論文参考訳（メタデータ） (2021-09-20T21:40:12Z)
Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文参考訳（メタデータ） (2021-07-02T20:36:05Z)
Uniform-PAC Bounds for Reinforcement Learning with Linear Function Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文参考訳（メタデータ） (2021-06-22T08:48:56Z)
Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。 LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文参考訳（メタデータ） (2021-02-24T01:11:25Z)
Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文参考訳（メタデータ） (2021-02-22T18:56:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。