論文の概要: Model-Advantage Optimization for Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.14080v1
- Date: Sat, 26 Jun 2021 20:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 07:11:54.852343
- Title: Model-Advantage Optimization for Model-Based Reinforcement Learning
- Title(参考訳): モデルに基づく強化学習のためのモデルアドバンテージ最適化
- Authors: Nirbhay Modhe, Harish Kamath, Dhruv Batra, Ashwin Kalyan
- Abstract要約: モデルに基づく強化学習(MBRL)アルゴリズムは、伝統的に環境の正確な力学を学習するために設計されてきた。
モデル学習を最大限に活用するためのモデル学習パラダイムであるバリューアウェアモデル学習は,学習ポリシーの価値関数を通じてモデル学習に通知することを提案する。
本稿では、2つのモデルにまたがるポリシーの絶対的な性能差の上限である新しい値認識目的を提案する。
- 参考スコア(独自算出の注目度): 41.13567626667456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based Reinforcement Learning (MBRL) algorithms have been traditionally
designed with the goal of learning accurate dynamics of the environment. This
introduces a mismatch between the objectives of model-learning and the overall
learning problem of finding an optimal policy. Value-aware model learning, an
alternative model-learning paradigm to maximum likelihood, proposes to inform
model-learning through the value function of the learnt policy. While this
paradigm is theoretically sound, it does not scale beyond toy settings. In this
work, we propose a novel value-aware objective that is an upper bound on the
absolute performance difference of a policy across two models. Further, we
propose a general purpose algorithm that modifies the standard MBRL pipeline --
enabling learning with value aware objectives. Our proposed objective, in
conjunction with this algorithm, is the first successful instantiation of
value-aware MBRL on challenging continuous control environments, outperforming
previous value-aware objectives and with competitive performance w.r.t.
MLE-based MBRL approaches.
- Abstract(参考訳): モデルに基づく強化学習(MBRL)アルゴリズムは、伝統的に環境の正確な力学を学習するために設計されてきた。
これは、モデル学習の目的と、最適な方針を見つけるための全体的な学習問題とのミスマッチをもたらす。
学習方針の価値関数を通じてモデル学習に通知する,モデル学習パラダイムであるバリューアウェアモデル学習を提案する。
このパラダイムは理論的には健全だが、おもちゃの設定以外にはスケールしない。
本研究では,2つのモデルにまたがるポリシーの絶対性能差を上限とした,新たな価値認識目標を提案する。
さらに,標準的なMBRLパイプラインを改良した汎用アルゴリズムを提案する。
提案手法は,提案アルゴリズムと組み合わせて,従来の値認識目標を上回り,競争性能w.r.tと競い合うような,継続的な制御環境における価値認識型MBRLのインスタンス化に成功した最初の手法である。
MLEベースのMBRLアプローチ。
関連論文リスト
- Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - TOM: Learning Policy-Aware Models for Model-Based Reinforcement Learning
via Transition Occupancy Matching [28.743727234246126]
モデル学習のための新しい「遷移占有マッチング」 (TOM) 手法を提案する。
TOMは、現在のポリシーが実際の環境と同じモデル内で遷移の分布を経験する程度に優れている。
TOMは、政策関連体験にモデル学習を集中させ、政策をより高いタスク報酬に迅速に進めることに成功していることを示す。
論文 参考訳(メタデータ) (2023-05-22T03:06:09Z) - The Virtues of Laziness in Model-based RL: A Unified Objective and
Algorithms [37.025378882978714]
モデルベース強化学習(MBRL)における2つの基本的な課題に対処する新しいアプローチを提案する。
我々の「怠慢」な手法は、学習された方針と専門家の政策の間のパフォーマンスの違いを捉えるために、モデルにおけるアドバンテージによるパフォーマンスの差異という、新しい統合された目的を生かしている。
提案する目的を最適化する2つの非回帰アルゴリズムを提案し,その統計的および計算的ゲインを実証する。
論文 参考訳(メタデータ) (2023-03-01T17:42:26Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Objective Mismatch in Model-based Reinforcement Learning [14.92062504466269]
モデルベース強化学習(MBRL)は、連続タスクをデータ効率よく学習するための強力なフレームワークであることが示されている。
私たちは、標準のMBRLフレームワークの根本的な問題、すなわち、客観的なミスマッチ問題を特定します。
本稿では,動的モデルトレーニングの再重み付けによるミスマッチ問題を緩和するための初期手法を提案する。
論文 参考訳(メタデータ) (2020-02-11T16:26:07Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。