論文の概要: Sample-efficient and Scalable Exploration in Continuous-Time RL
- arxiv url: http://arxiv.org/abs/2510.24482v1
- Date: Tue, 28 Oct 2025 14:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.237241
- Title: Sample-efficient and Scalable Exploration in Continuous-Time RL
- Title(参考訳): 連続時間RLにおけるサンプル効率とスケーラブル探索
- Authors: Klemens Iten, Lenart Treven, Bhavya Sukhija, Florian Dörfler, Andreas Krause,
- Abstract要約: 本研究では,非線形常微分方程式を用いて未知系の力学を表現した連続時間強化学習の問題を考察する。
我々はガウス過程やベイズニューラルネットワークのような確率モデルを利用して、基礎となるODEの不確実性を考慮したモデルを学ぶ。
これにより、連続時間モデルベースのRLに対するスケーラブルでサンプル効率のよいアプローチが得られる。
- 参考スコア(独自算出の注目度): 39.99126118024949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms are typically designed for discrete-time dynamics, even though the underlying real-world control systems are often continuous in time. In this paper, we study the problem of continuous-time reinforcement learning, where the unknown system dynamics are represented using nonlinear ordinary differential equations (ODEs). We leverage probabilistic models, such as Gaussian processes and Bayesian neural networks, to learn an uncertainty-aware model of the underlying ODE. Our algorithm, COMBRL, greedily maximizes a weighted sum of the extrinsic reward and model epistemic uncertainty. This yields a scalable and sample-efficient approach to continuous-time model-based RL. We show that COMBRL achieves sublinear regret in the reward-driven setting, and in the unsupervised RL setting (i.e., without extrinsic rewards), we provide a sample complexity bound. In our experiments, we evaluate COMBRL in both standard and unsupervised RL settings and demonstrate that it scales better, is more sample-efficient than prior methods, and outperforms baselines across several deep RL tasks.
- Abstract(参考訳): 強化学習アルゴリズムは一般に離散時間力学のために設計される。
本稿では,非線形常微分方程式(ODE)を用いて未知系の力学を表現した連続時間強化学習の問題点を考察する。
我々はガウス過程やベイズニューラルネットワークなどの確率モデルを利用して、基礎となるODEの不確実性を考慮したモデルを学ぶ。
我々のアルゴリズムCOMBRLは、外因性報酬の重み付け総和とモデルてんかんの不確かさを強引に最大化する。
これにより、連続時間モデルベースのRLに対するスケーラブルでサンプル効率のよいアプローチが得られる。
COMBRLは、報酬駆動設定においてサブ線形後悔を達成し、教師なしRL設定(即ち、外因性報酬を持たない)では、複雑さの束縛を与える。
実験では, COMBRLを標準設定と教師なしRL設定の両方で評価し, 拡張性が向上し, 従来の方法よりもサンプリング効率が良く, より深いRLタスクのベースラインよりも優れていることを示した。
関連論文リスト
- Normalizing Flows are Capable Models for RL [24.876149287707847]
本稿では,強化学習アルゴリズムにシームレスに統合した単一正規化フローアーキテクチャを提案する。
提案手法はより単純なアルゴリズムに導かれ,模倣学習,オフライン,目標条件付きRL,教師なしRLにおいて高い性能を実現する。
論文 参考訳(メタデータ) (2025-05-29T15:06:22Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Efficient Exploration in Continuous-time Model-based Reinforcement
Learning [37.14026153342745]
強化学習アルゴリズムは典型的には離散時間力学を考察するが、基礎となるシステムは時間的に連続していることが多い。
連続時間力学を表すモデルに基づく強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-30T15:04:40Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Continuous-Time Model-Based Reinforcement Learning [4.427447378048202]
本稿では,新しいアクター・クリティック手法に基づく連続時間MBRLフレームワークを提案する。
我々は、連続時間制御システムを明確に解決する新しいODE-RLスイート上で、本手法を実装し、テストする。
論文 参考訳(メタデータ) (2021-02-09T11:30:19Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。