Fugu-MT 論文翻訳(概要): Optimistic Actor-Critic with Parametric Policies for Linear Markov Decision Processes

論文の概要: Optimistic Actor-Critic with Parametric Policies for Linear Markov Decision Processes

arxiv url: http://arxiv.org/abs/2603.28595v1
Date: Mon, 30 Mar 2026 15:41:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:45.491948
Title: Optimistic Actor-Critic with Parametric Policies for Linear Markov Decision Processes
Title（参考訳）: 線形マルコフ決定過程に対するパラメトリックポリシを用いた最適アクター臨界
Authors: Max Qiushi Lin, Reza Asad, Kevin Tan, Haque Ishfaq, Csaba Szepesvari, Sharan Vaswani,
Abstract要約: ログ線形ポリシーを用いた楽観的なアクター批判フレームワークを提案する。提案アルゴリズムは, 法外および法外設定において, $widetildemathcalO(-4)$および$widetildemathcalO(-2)$サンプル複雑性を実現する。
参考スコア（独自算出の注目度）: 10.020260914307919
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although actor-critic methods have been successful in practice, their theoretical analyses have several limitations. Specifically, existing theoretical work either sidesteps the exploration problem by making strong assumptions or analyzes impractical methods with complicated algorithmic modifications. Moreover, the actor-critic methods analyzed for linear MDPs often employ natural policy gradient (NPG) and construct "implicit" policies without explicit parameterization. Such policies are computationally expensive to sample from, making the environment interactions inefficient. To that end, we focus on the finite-horizon linear MDPs and propose an optimistic actor-critic framework that uses parametric log-linear policies. In particular, we introduce a tractable \textit{logit-matching} regression objective for the actor. For the critic, we use approximate Thompson sampling via Langevin Monte Carlo to obtain optimistic value estimates. We prove that the resulting algorithm achieves $\widetilde{\mathcal{O}}(ε^{-4})$ and $\widetilde{\mathcal{O}}(ε^{-2})$ sample complexity in the on-policy and off-policy setting, respectively. Our results match prior theoretical works in achieving the state-of-the-art sample complexity, while our algorithm is more aligned with practice.
Abstract（参考訳）: アクター批判法は実際は成功したが、理論解析にはいくつかの制限がある。具体的には、既存の理論的研究は、強い仮定をするか、複雑なアルゴリズム的な修正で非現実的な方法を分析することによって、探索問題を横取りしている。さらに、線形MDPに対して解析されたアクター批判法は、しばしば自然ポリシー勾配(NPG)を用い、明示的なパラメータ化なしに「単純」ポリシーを構築する。このようなポリシーは、サンプリングするのに計算コストが高く、環境相互作用を非効率にする。そこで本研究では,有限水平線形MDPに着目し,パラメトリックログ線形ポリシーを用いた楽観的アクター批判フレームワークを提案する。特に,アクターに対してトラクタブルな \textit{logit-matching} 回帰目標を導入する。批評家に対しては、ランゲヴィン・モンテカルロによる近似トンプソンサンプリングを用いて楽観的な値推定を得る。得られたアルゴリズムは, オン・ポリティクスとオフ・ポリティクスの設定において, それぞれ$\widetilde{\mathcal{O}}(ε^{-4})$と$\widetilde{\mathcal{O}}(ε^{-2})$のサンプル複雑性を達成できることを証明する。我々の結果は、最先端のサンプルの複雑さを達成するための以前の理論的研究と一致し、我々のアルゴリズムは実践とより整合している。

関連論文リスト

Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [69.1820058966619]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文参考訳（メタデータ） (2024-10-02T08:46:34Z)
Narrowing the Gap between Adversarial and Stochastic MDPs via Policy Optimization [11.11876897168701]
対人的マルコフ決定過程における学習の問題を考える。本稿では,APO-MVPと呼ばれるアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-07-08T08:06:45Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Low-Switching Policy Gradient with Exploration via Online Sensitivity Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文参考訳（メタデータ） (2023-06-15T23:51:46Z)
A Theoretical Analysis of Optimistic Proximal Policy Optimization in Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文参考訳（メタデータ） (2023-05-15T17:55:24Z)
Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。 IRLの多くのアルゴリズムは本質的にネスト構造を持つ。我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-04T17:13:45Z)
A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文参考訳（メタデータ） (2020-01-08T10:13:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。