Fugu-MT 論文翻訳(概要): SOMBRL: Scalable and Optimistic Model-Based RL

論文の概要: SOMBRL: Scalable and Optimistic Model-Based RL

arxiv url: http://arxiv.org/abs/2511.20066v1
Date: Tue, 25 Nov 2025 08:39:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-26 17:37:04.36151
Title: SOMBRL: Scalable and Optimistic Model-Based RL
Title（参考訳）: SOMBRL: スケーラブルで最適なモデルベースRL
Authors: Bhavya Sukhija, Lenart Treven, Carmelo Sferrazza, Florian Dörfler, Pieter Abbeel, Andreas Krause,
Abstract要約: 我々は不確実性に直面した楽観主義の原理に基づくアプローチを提案する。我々はSOMBRLが原理探索のための柔軟でスケーラブルなソリューションであることを示す。また,動的RCカーハードウェア上でのSOMBRLの評価を行い,その性能について述べる。
参考スコア（独自算出の注目度）: 78.3360288726531
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address the challenge of efficient exploration in model-based reinforcement learning (MBRL), where the system dynamics are unknown and the RL agent must learn directly from online interactions. We propose Scalable and Optimistic MBRL (SOMBRL), an approach based on the principle of optimism in the face of uncertainty. SOMBRL learns an uncertainty-aware dynamics model and greedily maximizes a weighted sum of the extrinsic reward and the agent's epistemic uncertainty. SOMBRL is compatible with any policy optimizers or planners, and under common regularity assumptions on the system, we show that SOMBRL has sublinear regret for nonlinear dynamics in the (i) finite-horizon, (ii) discounted infinite-horizon, and (iii) non-episodic settings. Additionally, SOMBRL offers a flexible and scalable solution for principled exploration. We evaluate SOMBRL on state-based and visual-control environments, where it displays strong performance across all tasks and baselines. We also evaluate SOMBRL on a dynamic RC car hardware and show SOMBRL outperforms the state-of-the-art, illustrating the benefits of principled exploration for MBRL.
Abstract（参考訳）: モデルベース強化学習(MBRL)では,システムダイナミクスが未知であり,RLエージェントはオンラインインタラクションから直接学習しなければならない。本稿では,不確実性に直面した最適化の原理に基づく,スケーラブルで最適なMBRL(SOMBRL)を提案する。 SOMBRLは不確実性を意識した力学モデルを学び、外因性報酬の重み付け和とエージェントの疫学的不確かさを鮮やかに最大化する。 SOMBRLは任意のポリシーオプティマイザやプランナーと互換性があり、システム上の共通正規性仮定の下では、SOMBRLは非線形力学に対するサブ線形後悔を持つことを示す。 (i)有限ホライゾン (二)無限水平割引及び (iii)非エポゾリックな設定。さらに、SOMBRLは原則探索のための柔軟でスケーラブルなソリューションを提供する。我々は、状態ベースおよび視覚制御環境におけるSOMBRLを評価し、全てのタスクとベースラインに強い性能を示す。また、動的RCカーハードウェア上でのSOMBRLの評価を行い、MBRLの原理探索の利点を示す。

関連論文リスト

Optimistic World Models: Efficient Exploration in Model-Based Deep Reinforcement Learning [12.864604506942294]
楽観的探索のための原則的でスケーラブルなフレームワークであるOptimistic World Models (OWMs)を紹介する。 OWMは楽観的なダイナミクス損失を伴う拡張によるモデル学習に直接楽観性を取り入れる。 OWMは2つの最先端の世界モデルアーキテクチャ内でインスタンス化され、Optimistic DreamerV3とOptimistic STORMに導かれる。
論文参考訳（メタデータ） (2026-02-10T18:11:00Z)
Generalised Linear Models in Deep Bayesian RL with Learnable Basis Functions [4.605026772972944]
我々は、学習可能な基底関数(GLiBRL)を持つディープベイズRLにおける新しいディープBRL法、一般化線形モデルを導入する。挑戦的なMetaWorld ML10/45ベンチマークでは、GLiBRLは最先端のディープBRL手法であるVariBADの成功率を最大2.7倍改善した。
論文参考訳（メタデータ） (2025-12-24T06:00:51Z)
Enhancing Offline Model-Based RL via Active Model Selection: A Bayesian Optimization Perspective [11.20804263996665]
オフラインモデルベース強化学習(MBRL)は、事前収集データのみから、適切なパフォーマンスのポリシを学習するための競争フレームワークとして機能する。我々は,オンラインインタラクション予算の少ないオフラインMBRLにおけるモデル選択を強化する,アクティブモデル選択フレームワークBOMSを提案する。 BOMSは、オフライントレーニングデータのわずか1%-2.5%に匹敵する少額のオンラインインタラクションによって、ベースラインメソッドよりも改善されていることを示す。
論文参考訳（メタデータ） (2025-02-17T06:34:58Z)
Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning [5.663006149337036]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習し、サロゲートシミュレータとして使用する。オフラインデータセットで同じように振る舞う様々なMDPがあり、真のMDPに関する不確実性を扱うことは困難である。本稿では,BAMDP(Bayes Adaptive Markov Decision Process)としてオフラインMBRLのモデル化を提案する。
論文参考訳（メタデータ） (2024-10-15T03:36:43Z)
Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文参考訳（メタデータ） (2024-06-26T15:59:13Z)
NeoRL: Efficient Exploration for Nonepisodic RL [50.67294735645895]
非線形力学系における非線形強化学習(RL)の問題点について検討する。我々は不確実性に直面した楽観主義の原理に基づくNonepisodic Optimistic RL(NeoRL)を提案する。
論文参考訳（メタデータ） (2024-06-03T10:14:32Z)
Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文参考訳（メタデータ） (2024-06-01T16:29:03Z)
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。 textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文参考訳（メタデータ） (2023-05-29T17:25:26Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
A Survey on Model-based Reinforcement Learning [21.85904195671014]
強化学習(Reinforcement Learning, RL)は、環境と対話する試行錯誤プロセスを通じて、シーケンシャルな意思決定問題を解決する。モデルベース強化学習(MBRL)は有望な方向であり、実際のコストなしで試行錯誤を行う環境モデルを構築する。
論文参考訳（メタデータ） (2022-06-19T05:28:03Z)
Non-Markovian Reinforcement Learning using Fractional Dynamics [3.000697999889031]
強化学習(Reinforcement Learning, RL)は、環境と相互作用するエージェントの制御ポリシーを学ぶ技術である。本稿では,非マルコフ力学を持つシステムに対するモデルベースRL手法を提案する。このような環境は、人間の生理学、生物学的システム、物質科学、人口動態など、現実世界の多くの応用で一般的である。
論文参考訳（メタデータ） (2021-07-29T07:35:13Z)
Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文参考訳（メタデータ） (2020-12-21T18:28:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。