論文の概要: PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators
- arxiv url: http://arxiv.org/abs/2102.06961v1
- Date: Sat, 13 Feb 2021 17:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:40:25.051091
- Title: PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators
- Title(参考訳): persim:パーソナライズシミュレータによる異種エージェントによるデータ効率の高いオフライン強化学習
- Authors: Anish Agarwal, Abdullah Alomar, Varkey Alumootil, Devavrat Shah,
Dennis Shen, Zhi Xu, Cindy Yang
- Abstract要約: 我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
- 参考スコア(独自算出の注目度): 19.026312915461553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider offline reinforcement learning (RL) with heterogeneous agents
under severe data scarcity, i.e., we only observe a single historical
trajectory for every agent under an unknown, potentially sub-optimal policy. We
find that the performance of state-of-the-art offline and model-based RL
methods degrade significantly given such limited data availability, even for
commonly perceived "solved" benchmark settings such as "MountainCar" and
"CartPole". To address this challenge, we propose a model-based offline RL
approach, called PerSim, where we first learn a personalized simulator for each
agent by collectively using the historical trajectories across all agents prior
to learning a policy. We do so by positing that the transition dynamics across
agents can be represented as a latent function of latent factors associated
with agents, states, and actions; subsequently, we theoretically establish that
this function is well-approximated by a "low-rank" decomposition of separable
agent, state, and action latent functions. This representation suggests a
simple, regularized neural network architecture to effectively learn the
transition dynamics per agent, even with scarce, offline data.We perform
extensive experiments across several benchmark environments and RL methods. The
consistent improvement of our approach, measured in terms of state dynamics
prediction and eventual reward, confirms the efficacy of our framework in
leveraging limited historical data to simultaneously learn personalized
policies across agents.
- Abstract(参考訳): 我々は、重度のデータ不足下で不均一なエージェントを持つオフライン強化学習(RL)を考える。
最新のオフラインおよびモデルベースのRLメソッドのパフォーマンスは、「MountainCar」や「CartPole」などの一般的な「解決済み」ベンチマーク設定であっても、そのような限られたデータ可用性を考えると大幅に低下します。
この課題に対処するために、我々はPerSimと呼ばれるモデルベースのオフラインRLアプローチを提案し、ポリシーを学ぶ前に、各エージェントの履歴軌跡をまとめて利用することで、各エージェントのパーソナライズされたシミュレータを学習する。
エージェント間の遷移ダイナミクスがエージェント、状態、およびアクションに関連する潜在因子の潜在関数として表現できることを仮定し、その後、理論上、この関数は分離可能なエージェント、状態、およびアクション潜在関数の「低いランク」分解によってよく近似されていることを証明した。
この表現は、ごくわずかなオフラインデータであってもエージェント毎の遷移ダイナミクスを効果的に学習するためのシンプルで規則化されたニューラルネットワークアーキテクチャを提案し、いくつかのベンチマーク環境とRLメソッドにわたって広範な実験を行います。
このアプローチの一貫した改善は、状態のダイナミクス予測と結果報酬の観点で測定され、限られた履歴データを利用してエージェント間のパーソナライズされたポリシーを同時に学習する上で、フレームワークの有効性を確認します。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - CtRL-Sim: Reactive and Controllable Driving Agents with Offline Reinforcement Learning [38.63187494867502]
CtRL-Simは、リターン条件付きオフライン強化学習(RL)を利用して、リアクティブで制御可能なトラフィックエージェントを効率的に生成する手法である。
CtRL-Simは,エージェントの挙動を詳細に制御しながら,現実的な安全クリティカルシナリオを生成可能であることを示す。
論文 参考訳(メタデータ) (2024-03-29T02:10:19Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Domain Generalization for Robust Model-Based Offline Reinforcement
Learning [5.653790804686631]
既存のオフライン強化学習アルゴリズムは、トレーニングデータが既知のポリシーによって生成されるか、完全に未知の起源であると仮定する。
マルチデーモンストレータのオフラインRLは、各データセットをどのデモストレータが生成したかがわかる中間層であるが、デモストレータの基盤となるポリシーについては仮定しない。
ドメイン不変モデルベースオフラインRL(DIMORL)を提案し,リスク外挿法(REx)をダイナミックスおよび報酬モデル学習のプロセスに適用する。
論文 参考訳(メタデータ) (2022-11-27T13:37:49Z) - Semi-Supervised Offline Reinforcement Learning with Action-Free
Trajectories [37.14064734165109]
自然エージェントは、サイズ、品質、種類の異なる複数のデータソースから学習することができる。
オフライン強化学習(RL)の文脈でこれを研究し、実際に動機付けされた半教師付き環境を導入する。
論文 参考訳(メタデータ) (2022-10-12T18:22:23Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Backward Imitation and Forward Reinforcement Learning via Bi-directional
Model Rollouts [11.4219428942199]
従来のモデルベース強化学習(RL)手法は、学習力学モデルを用いて前方ロールアウトトレースを生成する。
本稿では,後方模倣とフォワード強化学習(BIFRL)フレームワークを提案する。
BIFRLは、より効率的な方法で高価値状態に到達し、探索するエージェントに権限を与える。
論文 参考訳(メタデータ) (2022-08-04T04:04:05Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。