Fugu-MT 論文翻訳(概要): A Primal-Dual Algorithm for Offline Constrained Reinforcement Learning with Low-Rank MDPs

論文の概要: A Primal-Dual Algorithm for Offline Constrained Reinforcement Learning with Low-Rank MDPs

arxiv url: http://arxiv.org/abs/2402.04493v1
Date: Wed, 7 Feb 2024 00:33:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 17:19:39.544784
Title: A Primal-Dual Algorithm for Offline Constrained Reinforcement Learning with Low-Rank MDPs
Title（参考訳）: 低ランクMDPを用いたオフライン制約強化学習の2次アルゴリズム
Authors: Kihyuk Hong, Ambuj Tewari
Abstract要約: オフライン強化学習(RL)は、事前に収集されたデータセットを使用して期待される累積報酬を最大化するポリシーを学ぶことを目的としている。サンプル複雑性を持つ既存のアルゴリズムは$O(epsilon-2)$で、$epsilon$-optimal Policyを見つけるには、均一なデータカバレッジの仮定を必要とするか、計算的に非効率である。割引無限水平設定において、低ランクのMDPを持つオフラインRLの原始双対アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 21.796226854037997
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Offline reinforcement learning (RL) aims to learn a policy that maximizes the expected cumulative reward using a pre-collected dataset. Offline RL with low-rank MDPs or general function approximation has been widely studied recently, but existing algorithms with sample complexity $O(\epsilon^{-2})$ for finding an $\epsilon$-optimal policy either require a uniform data coverage assumptions or are computationally inefficient. In this paper, we propose a primal dual algorithm for offline RL with low-rank MDPs in the discounted infinite-horizon setting. Our algorithm is the first computationally efficient algorithm in this setting that achieves sample complexity of $O(\epsilon^{-2})$ with partial data coverage assumption. This improves upon a recent work that requires $O(\epsilon^{-4})$ samples. Moreover, our algorithm extends the previous work to the offline constrained RL setting by supporting constraints on additional reward signals.
Abstract（参考訳）: オフライン強化学習(RL)は、事前に収集されたデータセットを使用して期待される累積報酬を最大化するポリシーを学ぶことを目的としている。低ランクのmdpや一般関数近似を持つオフラインrlは近年広く研究されているが、サンプル複雑性を持つ既存のアルゴリズムは$\epsilon$-optimalポリシーを見つけるために$o(\epsilon^{-2})$である。本稿では,低ランクのMDPを持つオフラインRLに対する,割引無限水平設定における原始双対アルゴリズムを提案する。本アルゴリズムは,部分的データカバレッジを仮定した$o(\epsilon^{-2})$のサンプル複雑性を実現する,この設定における計算効率の高いアルゴリズムである。これは、$O(\epsilon^{-4})$サンプルを必要とする最近の作業を改善する。さらに,提案アルゴリズムは,付加的な報酬信号に対する制約をサポートすることにより,前処理をオフライン制約付きRL設定に拡張する。

関連論文リスト

Offline Constrained Reinforcement Learning under Partial Data Coverage [18.449996575976993]
一般関数近似を用いたオフライン拘束強化学習(RL)について検討した。線形プログラミング(LP)の定式化に基づくオラクル効率の原始双対アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-23T06:00:01Z)
Augmenting Online RL with Offline Data is All You Need: A Unified Hybrid RL Algorithm Design and Analysis [18.323002218335215]
本稿では、エージェントがオフラインデータセットとオンラインインタラクションの両方を利用して最適なポリシーを学習できる強化学習(RL)のためのハイブリッド学習フレームワークについて検討する。統合されたアルゴリズムと分析を行い、オフラインデータセットによる信頼性に基づくオンラインRLアルゴリズムの強化は、純粋なオンラインまたはオフラインのアルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-19T22:58:54Z)
Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文参考訳（メタデータ） (2023-05-22T11:45:23Z)
Offline Reinforcement Learning via Linear-Programming with Error-Bound Induced Constraints [26.008426384903764]
オフライン強化学習(RL)は、事前に収集されたデータセットを使用して、マルコフ決定プロセス(MDP)の最適ポリシーを見つけることを目的としている。本研究では,オフラインRLにおけるマルコフ決定過程の線形プログラミング (LP) の再検討を行う。
論文参考訳（メタデータ） (2022-12-28T15:28:12Z)
On Instance-Dependent Bounds for Offline Reinforcement Learning with Linear Function Approximation [80.86358123230757]
本稿では,Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI) というアルゴリズムを提案する。部分的なデータカバレッジの仮定の下で、BCP-VI は最適な Q-値関数に正のギャップがあるときに、オフライン RL に対して $tildemathcalO(frac1K)$ の高速レートを得る。これらは、アダプティブデータからの線形関数近似を持つオフラインRLに対してそれぞれ、最初の$tildemathcalO(frac1K)$boundと絶対零部分最適境界である。
論文参考訳（メタデータ） (2022-11-23T18:50:44Z)
Settling the Sample Complexity of Model-Based Offline Reinforcement Learning [50.5790774201146]
オフライン強化学習(RL)は、事前収集されたデータを用いて、さらなる探索を行わずに学習する。事前のアルゴリズムや分析は、最適なサンプルの複雑さに悩まされるか、サンプルの最適性に到達するために高いバーンインコストがかかるかのいずれかである。モデルベース(あるいは"プラグイン")アプローチは,バーンインコストを伴わずに,最小限のサンプル複雑性を実現することを実証する。
論文参考訳（メタデータ） (2022-04-11T17:26:19Z)
Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。この分離は線形MDPの設定には存在しないことを示す。我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-01-26T22:09:59Z)
Locally Differentially Private Reinforcement Learning for Linear Mixture Markov Decision Processes [78.27542864367821]
強化学習(RL)アルゴリズムは、ユーザのプライベートで機密性の高いデータに依存するパーソナライズされたサービスを提供するために使用することができる。ユーザのプライバシを保護するために、プライバシ保護RLアルゴリズムが要求されている。線形混合MDPと呼ばれるマルコフ決定過程(MDP)のクラスを学習するための新しい$(varepsilon, delta)$-LDPアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-10-19T17:44:09Z)
Online Sub-Sampling for Reinforcement Learning with General Function Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文参考訳（メタデータ） (2021-06-14T07:36:25Z)
Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning [59.02541753781001]
本稿では、学習者が「参照ポリシー」にさらにアクセス可能なオンラインRLの政策微調整に関する理論的研究を開始する。我々はまず、$varepsilon$$widetildeO(H3SCstar/varepsilon2)$のエピソード内で、ほぼ最適ポリシーを求める鋭いオフライン還元アルゴリズムを設計する。次に、Omega(H3SminCstar, A/varepsilon2)$のサンプル複雑性を、任意のポリシー微調整アルゴリズムに対して低いバウンドで設定します。
論文参考訳（メタデータ） (2021-06-09T08:28:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。