論文の概要: Sample and Computationally Efficient Continuous-Time Reinforcement Learning with General Function Approximation
- arxiv url: http://arxiv.org/abs/2505.14821v1
- Date: Tue, 20 May 2025 18:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.705309
- Title: Sample and Computationally Efficient Continuous-Time Reinforcement Learning with General Function Approximation
- Title(参考訳): 一般関数近似を用いた連続時間強化学習のサンプルと計算効率
- Authors: Runze Zhao, Yue Yu, Adams Yiyue Zhu, Chen Yang, Dongruo Zhou,
- Abstract要約: 連続時間強化学習(CTRL)は、相互作用が時間とともに継続的に進化する環境において、シーケンシャルな意思決定のための原則的なフレームワークを提供する。
サンプルと計算効率の両方を実現するモデルベースアルゴリズムを提案する。
我々は,$N$の測定値を用いて,$tildeO(sqrtd_mathcalR + d_mathcalFN-1/2)$の準最適解を求めることができることを示す。
- 参考スコア(独自算出の注目度): 28.63391989014238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous-time reinforcement learning (CTRL) provides a principled framework for sequential decision-making in environments where interactions evolve continuously over time. Despite its empirical success, the theoretical understanding of CTRL remains limited, especially in settings with general function approximation. In this work, we propose a model-based CTRL algorithm that achieves both sample and computational efficiency. Our approach leverages optimism-based confidence sets to establish the first sample complexity guarantee for CTRL with general function approximation, showing that a near-optimal policy can be learned with a suboptimality gap of $\tilde{O}(\sqrt{d_{\mathcal{R}} + d_{\mathcal{F}}}N^{-1/2})$ using $N$ measurements, where $d_{\mathcal{R}}$ and $d_{\mathcal{F}}$ denote the distributional Eluder dimensions of the reward and dynamic functions, respectively, capturing the complexity of general function approximation in reinforcement learning. Moreover, we introduce structured policy updates and an alternative measurement strategy that significantly reduce the number of policy updates and rollouts while maintaining competitive sample efficiency. We implemented experiments to backup our proposed algorithms on continuous control tasks and diffusion model fine-tuning, demonstrating comparable performance with significantly fewer policy updates and rollouts.
- Abstract(参考訳): 連続時間強化学習(CTRL)は、相互作用が時間とともに継続的に進化する環境において、シーケンシャルな意思決定のための原則的なフレームワークを提供する。
実証的な成功にもかかわらず、CTRLの理論的理解は、特に一般関数近似の環境では限られている。
本研究では,サンプルと計算効率の両方を実現するモデルベースCTRLアルゴリズムを提案する。
提案手法は,CTRL の一般関数近似による最初の標本複雑性保証を確立するために,最適化に基づく信頼度セットを利用すれば,近似的ポリシを $\tilde{O}(\sqrt{d_{\mathcal{R}} + d_{\mathcal{F}}}N^{-1/2})$$N$ 測定,$d_{\mathcal{R}}$ および $d_{\mathcal{F}}$ を用いて学習できることを示し,それぞれ報酬関数と動的関数の分布型 Eluder 次元を表現し,強化学習における一般関数近似の複雑さを捉えることができる。
さらに,本研究では, 競合するサンプル効率を維持しつつ, ポリシー更新とロールアウトの数を著しく削減する, 構造的ポリシー更新と代替測定戦略を導入する。
提案したアルゴリズムを連続制御タスクや拡散モデルの微調整にバックアップする実験を行い、ポリシー更新やロールアウトをはるかに少なくして、同等のパフォーマンスを実証した。
関連論文リスト
- A Two-Timescale Primal-Dual Framework for Reinforcement Learning via Online Dual Variable Guidance [3.4354636842203026]
正規化マルコフ決定過程(MDP)の解法としてPGDA-RLを提案する。
PGDA-RLは、経験的リプレイに基づく勾配推定と、基礎となるネスト最適化問題の2段階の分解を統合する。
PGDA-RL は正規化 MDP の最適値関数とポリシーにほぼ確実に収束することを示す。
論文 参考訳(メタデータ) (2025-05-07T15:18:43Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Natural Actor-Critic for Robust Reinforcement Learning with Function
Approximation [20.43657369407846]
本研究では,トレーニングシミュレータとテスト環境間のモデルミスマッチに対して頑健な評価政策を決定することを目的として,ロバスト強化学習(RL)について検討する。
本稿では2つの新しい不確実性集合の定式化を提案し,その1つは二重サンプリングに基づくものであり,もう1つは積分確率計量に基づくものである。
複数の MuJoCo 環境と実世界の TurtleBot ナビゲーションタスクにおいて,提案した RNAC アプローチによって学習されたポリシーの堅牢性を示す。
論文 参考訳(メタデータ) (2023-07-17T22:10:20Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages [37.12048108122337]
本稿では, アクター批判的深層強化学習におけるベイズ推定の近似に向けてのステップを提案する。
Asynchronous Advantage Actor-Critic (A3C)アルゴリズムの3つの変更によって実装されている。
論文 参考訳(メタデータ) (2023-06-02T11:37:22Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z) - A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。
オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。
提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文 参考訳(メタデータ) (2020-01-08T10:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。