論文の概要: PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators
- arxiv url: http://arxiv.org/abs/2102.06961v1
- Date: Sat, 13 Feb 2021 17:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:40:25.051091
- Title: PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators
- Title(参考訳): persim:パーソナライズシミュレータによる異種エージェントによるデータ効率の高いオフライン強化学習
- Authors: Anish Agarwal, Abdullah Alomar, Varkey Alumootil, Devavrat Shah,
Dennis Shen, Zhi Xu, Cindy Yang
- Abstract要約: 我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
- 参考スコア(独自算出の注目度): 19.026312915461553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider offline reinforcement learning (RL) with heterogeneous agents
under severe data scarcity, i.e., we only observe a single historical
trajectory for every agent under an unknown, potentially sub-optimal policy. We
find that the performance of state-of-the-art offline and model-based RL
methods degrade significantly given such limited data availability, even for
commonly perceived "solved" benchmark settings such as "MountainCar" and
"CartPole". To address this challenge, we propose a model-based offline RL
approach, called PerSim, where we first learn a personalized simulator for each
agent by collectively using the historical trajectories across all agents prior
to learning a policy. We do so by positing that the transition dynamics across
agents can be represented as a latent function of latent factors associated
with agents, states, and actions; subsequently, we theoretically establish that
this function is well-approximated by a "low-rank" decomposition of separable
agent, state, and action latent functions. This representation suggests a
simple, regularized neural network architecture to effectively learn the
transition dynamics per agent, even with scarce, offline data.We perform
extensive experiments across several benchmark environments and RL methods. The
consistent improvement of our approach, measured in terms of state dynamics
prediction and eventual reward, confirms the efficacy of our framework in
leveraging limited historical data to simultaneously learn personalized
policies across agents.
- Abstract(参考訳): 我々は、重度のデータ不足下で不均一なエージェントを持つオフライン強化学習(RL)を考える。
最新のオフラインおよびモデルベースのRLメソッドのパフォーマンスは、「MountainCar」や「CartPole」などの一般的な「解決済み」ベンチマーク設定であっても、そのような限られたデータ可用性を考えると大幅に低下します。
この課題に対処するために、我々はPerSimと呼ばれるモデルベースのオフラインRLアプローチを提案し、ポリシーを学ぶ前に、各エージェントの履歴軌跡をまとめて利用することで、各エージェントのパーソナライズされたシミュレータを学習する。
エージェント間の遷移ダイナミクスがエージェント、状態、およびアクションに関連する潜在因子の潜在関数として表現できることを仮定し、その後、理論上、この関数は分離可能なエージェント、状態、およびアクション潜在関数の「低いランク」分解によってよく近似されていることを証明した。
この表現は、ごくわずかなオフラインデータであってもエージェント毎の遷移ダイナミクスを効果的に学習するためのシンプルで規則化されたニューラルネットワークアーキテクチャを提案し、いくつかのベンチマーク環境とRLメソッドにわたって広範な実験を行います。
このアプローチの一貫した改善は、状態のダイナミクス予測と結果報酬の観点で測定され、限られた履歴データを利用してエージェント間のパーソナライズされたポリシーを同時に学習する上で、フレームワークの有効性を確認します。
関連論文リスト
- Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Domain Generalization for Robust Model-Based Offline Reinforcement
Learning [5.653790804686631]
既存のオフライン強化学習アルゴリズムは、トレーニングデータが既知のポリシーによって生成されるか、完全に未知の起源であると仮定する。
マルチデーモンストレータのオフラインRLは、各データセットをどのデモストレータが生成したかがわかる中間層であるが、デモストレータの基盤となるポリシーについては仮定しない。
ドメイン不変モデルベースオフラインRL(DIMORL)を提案し,リスク外挿法(REx)をダイナミックスおよび報酬モデル学習のプロセスに適用する。
論文 参考訳(メタデータ) (2022-11-27T13:37:49Z) - Semi-Supervised Offline Reinforcement Learning with Action-Free
Trajectories [37.14064734165109]
自然エージェントは、サイズ、品質、種類の異なる複数のデータソースから学習することができる。
オフライン強化学習(RL)の文脈でこれを研究し、実際に動機付けされた半教師付き環境を導入する。
論文 参考訳(メタデータ) (2022-10-12T18:22:23Z) - Unsupervised Model-based Pre-training for Data-efficient Control from
Pixels [112.63440666617494]
データ効率のよい視覚制御のための効果的な教師なしRL戦略を設計する。
まず、教師なしRLを用いて収集したデータで事前訓練された世界モデルにより、将来のタスクへの適応が容易になることを示す。
次に、エージェントの事前学習されたコンポーネントを効果的に再利用し、想像力の学習と計画を行うためのいくつかの設計選択を分析する。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Backward Imitation and Forward Reinforcement Learning via Bi-directional
Model Rollouts [11.4219428942199]
従来のモデルベース強化学習(RL)手法は、学習力学モデルを用いて前方ロールアウトトレースを生成する。
本稿では,後方模倣とフォワード強化学習(BIFRL)フレームワークを提案する。
BIFRLは、より効率的な方法で高価値状態に到達し、探索するエージェントに権限を与える。
論文 参考訳(メタデータ) (2022-08-04T04:04:05Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。