論文の概要: TOM: Learning Policy-Aware Models for Model-Based Reinforcement Learning
via Transition Occupancy Matching
- arxiv url: http://arxiv.org/abs/2305.12663v1
- Date: Mon, 22 May 2023 03:06:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 18:45:59.305510
- Title: TOM: Learning Policy-Aware Models for Model-Based Reinforcement Learning
via Transition Occupancy Matching
- Title(参考訳): tom: トランジッション占有者マッチングによるモデルベース強化学習のためのポリシアウェアモデル
- Authors: Yecheng Jason Ma, Kausik Sivakumar, Jason Yan, Osbert Bastani, Dinesh
Jayaraman
- Abstract要約: モデル学習のための新しい「遷移占有マッチング」 (TOM) 手法を提案する。
TOMは、現在のポリシーが実際の環境と同じモデル内で遷移の分布を経験する程度に優れている。
TOMは、政策関連体験にモデル学習を集中させ、政策をより高いタスク報酬に迅速に進めることに成功していることを示す。
- 参考スコア(独自算出の注目度): 28.743727234246126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard model-based reinforcement learning (MBRL) approaches fit a
transition model of the environment to all past experience, but this wastes
model capacity on data that is irrelevant for policy improvement. We instead
propose a new "transition occupancy matching" (TOM) objective for MBRL model
learning: a model is good to the extent that the current policy experiences the
same distribution of transitions inside the model as in the real environment.
We derive TOM directly from a novel lower bound on the standard reinforcement
learning objective. To optimize TOM, we show how to reduce it to a form of
importance weighted maximum-likelihood estimation, where the automatically
computed importance weights identify policy-relevant past experiences from a
replay buffer, enabling stable optimization. TOM thus offers a plug-and-play
model learning sub-routine that is compatible with any backbone MBRL algorithm.
On various Mujoco continuous robotic control tasks, we show that TOM
successfully focuses model learning on policy-relevant experience and drives
policies faster to higher task rewards than alternative model learning
approaches.
- Abstract(参考訳): 標準モデルベース強化学習(MBRL)アプローチは、過去のすべての経験に環境の遷移モデルに適合するが、これは政策改善とは無関係なデータにモデル容量を浪費する。
その代わりに、MBRLモデル学習のための新しい「遷移占有マッチング」(TOM)目標を提案する。
我々は、TOMを標準強化学習目標に基づく新しい下限から直接導出する。
TOMを最適化するためには、自動的に計算された重要度重み付けにより、リプレイバッファからポリシー関連過去の経験を識別し、安定した最適化を可能にする。
したがって、TOMはどんなバックボーンMBRLアルゴリズムとも互換性のあるプラグイン・アンド・プレイモデル学習サブルーチンを提供する。
各種のMujoco連続型ロボット制御タスクにおいて、TOMはモデル学習を政策関連体験に焦点を合わせ、代替モデル学習アプローチよりも高速なタスク報酬にポリシーを推し進めることが示されている。
関連論文リスト
- MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Decision-Focused Model-based Reinforcement Learning for Reward Transfer [27.899494428456048]
本稿では,報酬関数の変化に頑健でありながら高いリターンを達成する遷移モデルを学習する,新しいロバストな決定中心(RDF)アルゴリズムを提案する。
我々は、様々なシミュレーターと実際の患者データに基づいて、RDFがパーソナライズされたポリシーを計画するのに使えるシンプルで効果的なモデルを学ぶことができるという理論的および実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-04-06T20:47:09Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Model-Advantage Optimization for Model-Based Reinforcement Learning [41.13567626667456]
モデルに基づく強化学習(MBRL)アルゴリズムは、伝統的に環境の正確な力学を学習するために設計されてきた。
モデル学習を最大限に活用するためのモデル学習パラダイムであるバリューアウェアモデル学習は,学習ポリシーの価値関数を通じてモデル学習に通知することを提案する。
本稿では、2つのモデルにまたがるポリシーの絶対的な性能差の上限である新しい値認識目的を提案する。
論文 参考訳(メタデータ) (2021-06-26T20:01:28Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。