論文の概要: Enhancing Offline Model-Based RL via Active Model Selection: A Bayesian Optimization Perspective
- arxiv url: http://arxiv.org/abs/2502.11480v1
- Date: Mon, 17 Feb 2025 06:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:35.457103
- Title: Enhancing Offline Model-Based RL via Active Model Selection: A Bayesian Optimization Perspective
- Title(参考訳): アクティブモデル選択によるオフラインモデルベースRLの強化:ベイズ最適化の視点から
- Authors: Yu-Wei Yang, Yun-Ming Chan, Wei Hung, Xi Liu, Ping-Chun Hsieh,
- Abstract要約: オフラインモデルベース強化学習(MBRL)は、事前収集データのみから、適切なパフォーマンスのポリシを学習するための競争フレームワークとして機能する。
我々は,オンラインインタラクション予算の少ないオフラインMBRLにおけるモデル選択を強化する,アクティブモデル選択フレームワークBOMSを提案する。
BOMSは、オフライントレーニングデータのわずか1%-2.5%に匹敵する少額のオンラインインタラクションによって、ベースラインメソッドよりも改善されていることを示す。
- 参考スコア(独自算出の注目度): 11.20804263996665
- License:
- Abstract: Offline model-based reinforcement learning (MBRL) serves as a competitive framework that can learn well-performing policies solely from pre-collected data with the help of learned dynamics models. To fully unleash the power of offline MBRL, model selection plays a pivotal role in determining the dynamics model utilized for downstream policy learning. However, offline MBRL conventionally relies on validation or off-policy evaluation, which are rather inaccurate due to the inherent distribution shift in offline RL. To tackle this, we propose BOMS, an active model selection framework that enhances model selection in offline MBRL with only a small online interaction budget, through the lens of Bayesian optimization (BO). Specifically, we recast model selection as BO and enable probabilistic inference in BOMS by proposing a novel model-induced kernel, which is theoretically grounded and computationally efficient. Through extensive experiments, we show that BOMS improves over the baseline methods with a small amount of online interaction comparable to only $1\%$-$2.5\%$ of offline training data on various RL tasks.
- Abstract(参考訳): オフラインモデルベース強化学習(MBRL)は、学習されたダイナミックスモデルの助けを借りて、事前収集されたデータのみから、適切なパフォーマンスのポリシーを学習できる競争フレームワークとして機能する。
オフラインMBRLのパワーを完全に解き放つために、モデル選択は下流ポリシー学習に使用するダイナミクスモデルを決定する上で重要な役割を果たす。
しかし、オフラインのMBRLは、従来の検証や非政治評価に依存しており、これはオフラインのRLに固有の分布シフトのため、かなり不正確である。
そこで本研究では,オンラインインタラクション予算の少ないオフラインMBRLにおけるモデル選択を,ベイズ最適化(BO)のレンズを用いて,アクティブモデル選択フレームワークBOMSを提案する。
具体的には、モデル選択をBOとして再キャストし、理論上は基礎的かつ計算的に効率的である新しいモデル誘発カーネルを提案することにより、BOMSの確率的推論を可能にする。
広範な実験を通じて,BOMSはオンラインインタラクションの少ないベースライン手法よりも,RLタスクのオフライントレーニングデータの1\%$-2.5\%$に匹敵する改善を行っている。
関連論文リスト
- Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning [5.663006149337036]
オフラインモデルに基づく強化学習(MBRL)は、データ駆動による意思決定と制御のための強力なアプローチである。
オフラインデータセットで同一の動作をする様々なMDPが存在する可能性があるため、真のMDPに関する不確実性に対処することは困難である。
本研究では,BAMDPを連続状態および動作空間で解くことのできるベイズ適応モンテカルロ計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:36:43Z) - Offline Model-Based Reinforcement Learning with Anti-Exploration [0.0]
モースモデルに基づくオフラインRL(MoMo)を提案する。
MoMoは、価値過大評価に対抗するために、アンチ探索ボーナスを使用してオフラインで強化学習を行う。
後者は、テストされたD4RLデータセットの大部分で、モデルベースとモデルフリーのベースラインを上回っている。
論文 参考訳(メタデータ) (2024-08-20T10:29:21Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Double Check Your State Before Trusting It: Confidence-Aware
Bidirectional Offline Model-Based Imagination [31.805991958408438]
トレーニングされた双方向ダイナミクスモデルとロールアウトポリシをダブルチェックで使用することにより,オフラインデータセットの強化を提案する。
提案手法は,信頼度を考慮した双方向オフラインモデルに基づくイマジネーションであり,信頼度の高いサンプルを生成し,任意のモデルレスオフラインRL法と組み合わせることができる。
論文 参考訳(メタデータ) (2022-06-16T08:00:44Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。