論文の概要: SOMBRL: Scalable and Optimistic Model-Based RL
- arxiv url: http://arxiv.org/abs/2511.20066v1
- Date: Tue, 25 Nov 2025 08:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.36151
- Title: SOMBRL: Scalable and Optimistic Model-Based RL
- Title(参考訳): SOMBRL: スケーラブルで最適なモデルベースRL
- Authors: Bhavya Sukhija, Lenart Treven, Carmelo Sferrazza, Florian Dörfler, Pieter Abbeel, Andreas Krause,
- Abstract要約: 我々は不確実性に直面した楽観主義の原理に基づくアプローチを提案する。
我々はSOMBRLが原理探索のための柔軟でスケーラブルなソリューションであることを示す。
また,動的RCカーハードウェア上でのSOMBRLの評価を行い,その性能について述べる。
- 参考スコア(独自算出の注目度): 78.3360288726531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenge of efficient exploration in model-based reinforcement learning (MBRL), where the system dynamics are unknown and the RL agent must learn directly from online interactions. We propose Scalable and Optimistic MBRL (SOMBRL), an approach based on the principle of optimism in the face of uncertainty. SOMBRL learns an uncertainty-aware dynamics model and greedily maximizes a weighted sum of the extrinsic reward and the agent's epistemic uncertainty. SOMBRL is compatible with any policy optimizers or planners, and under common regularity assumptions on the system, we show that SOMBRL has sublinear regret for nonlinear dynamics in the (i) finite-horizon, (ii) discounted infinite-horizon, and (iii) non-episodic settings. Additionally, SOMBRL offers a flexible and scalable solution for principled exploration. We evaluate SOMBRL on state-based and visual-control environments, where it displays strong performance across all tasks and baselines. We also evaluate SOMBRL on a dynamic RC car hardware and show SOMBRL outperforms the state-of-the-art, illustrating the benefits of principled exploration for MBRL.
- Abstract(参考訳): モデルベース強化学習(MBRL)では,システムダイナミクスが未知であり,RLエージェントはオンラインインタラクションから直接学習しなければならない。
本稿では,不確実性に直面した最適化の原理に基づく,スケーラブルで最適なMBRL(SOMBRL)を提案する。
SOMBRLは不確実性を意識した力学モデルを学び、外因性報酬の重み付け和とエージェントの疫学的不確かさを鮮やかに最大化する。
SOMBRLは任意のポリシーオプティマイザやプランナーと互換性があり、システム上の共通正規性仮定の下では、SOMBRLは非線形力学に対するサブ線形後悔を持つことを示す。
(i)有限ホライゾン
(二)無限水平割引及び
(iii)非エポゾリックな設定。
さらに、SOMBRLは原則探索のための柔軟でスケーラブルなソリューションを提供する。
我々は、状態ベースおよび視覚制御環境におけるSOMBRLを評価し、全てのタスクとベースラインに強い性能を示す。
また、動的RCカーハードウェア上でのSOMBRLの評価を行い、MBRLの原理探索の利点を示す。
関連論文リスト
- Enhancing Offline Model-Based RL via Active Model Selection: A Bayesian Optimization Perspective [11.20804263996665]
オフラインモデルベース強化学習(MBRL)は、事前収集データのみから、適切なパフォーマンスのポリシを学習するための競争フレームワークとして機能する。
我々は,オンラインインタラクション予算の少ないオフラインMBRLにおけるモデル選択を強化する,アクティブモデル選択フレームワークBOMSを提案する。
BOMSは、オフライントレーニングデータのわずか1%-2.5%に匹敵する少額のオンラインインタラクションによって、ベースラインメソッドよりも改善されていることを示す。
論文 参考訳(メタデータ) (2025-02-17T06:34:58Z) - Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning [5.663006149337036]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習し、サロゲートシミュレータとして使用する。
オフラインデータセットで同じように振る舞う様々なMDPがあり、真のMDPに関する不確実性を扱うことは困難である。
本稿では,BAMDP(Bayes Adaptive Markov Decision Process)としてオフラインMBRLのモデル化を提案する。
論文 参考訳(メタデータ) (2024-10-15T03:36:43Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - NeoRL: Efficient Exploration for Nonepisodic RL [50.67294735645895]
非線形力学系における非線形強化学習(RL)の問題点について検討する。
我々は不確実性に直面した楽観主義の原理に基づくNonepisodic Optimistic RL(NeoRL)を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:14:32Z) - Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。
時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。
ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文 参考訳(メタデータ) (2024-06-01T16:29:03Z) - A Survey on Model-based Reinforcement Learning [21.85904195671014]
強化学習(Reinforcement Learning, RL)は、環境と対話する試行錯誤プロセスを通じて、シーケンシャルな意思決定問題を解決する。
モデルベース強化学習(MBRL)は有望な方向であり、実際のコストなしで試行錯誤を行う環境モデルを構築する。
論文 参考訳(メタデータ) (2022-06-19T05:28:03Z) - Non-Markovian Reinforcement Learning using Fractional Dynamics [3.000697999889031]
強化学習(Reinforcement Learning, RL)は、環境と相互作用するエージェントの制御ポリシーを学ぶ技術である。
本稿では,非マルコフ力学を持つシステムに対するモデルベースRL手法を提案する。
このような環境は、人間の生理学、生物学的システム、物質科学、人口動態など、現実世界の多くの応用で一般的である。
論文 参考訳(メタデータ) (2021-07-29T07:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。