論文の概要: Fully Decentralized Model-based Policy Optimization for Networked
Systems
- arxiv url: http://arxiv.org/abs/2207.06559v1
- Date: Wed, 13 Jul 2022 23:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 12:36:24.698542
- Title: Fully Decentralized Model-based Policy Optimization for Networked
Systems
- Title(参考訳): ネットワークシステムのための完全分散モデルに基づくポリシー最適化
- Authors: Yali Du, Chengdong Ma, Yuchen Liu, Runji Lin, Hao Dong, Jun Wang and
Yaodong Yang
- Abstract要約: 本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
- 参考スコア(独自算出の注目度): 23.46407780093797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms require a large amount of samples; this
often limits their real-world applications on even simple tasks. Such a
challenge is more outstanding in multi-agent tasks, as each step of operation
is more costly requiring communications or shifting or resources. This work
aims to improve data efficiency of multi-agent control by model-based learning.
We consider networked systems where agents are cooperative and communicate only
locally with their neighbors, and propose the decentralized model-based policy
optimization framework (DMPO). In our method, each agent learns a dynamic model
to predict future states and broadcast their predictions by communication, and
then the policies are trained under the model rollouts. To alleviate the bias
of model-generated data, we restrain the model usage for generating myopic
rollouts, thus reducing the compounding error of model generation. To pertain
the independence of policy update, we introduce extended value function and
theoretically prove that the resulting policy gradient is a close approximation
to true policy gradients. We evaluate our algorithm on several benchmarks for
intelligent transportation systems, which are connected autonomous vehicle
control tasks (Flow and CACC) and adaptive traffic signal control (ATSC).
Empirically results show that our method achieves superior data efficiency and
matches the performance of model-free methods using true models.
- Abstract(参考訳): 強化学習アルゴリズムは大量のサンプルを必要とする。
このような課題はマルチエージェントタスクにおいてより際立ったものであり、各ステップは通信やシフト、リソースを必要とするコストがかかる。
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力し、隣人とのみローカルに通信するネットワークシステムについて検討し、分散モデルに基づくポリシー最適化フレームワーク(dmpo)を提案する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,モデルロールアウトに基づいてポリシーをトレーニングする。
モデル生成データのバイアスを軽減するため,モデル生成の複合化誤差を低減し,ミオピックロールアウト生成におけるモデル使用量を抑制する。
政策更新の独立性を示すため、拡張値関数を導入し、結果の政策勾配が真の政策勾配に近いことを理論的に証明する。
本研究では,自律走行制御タスク (Flow and CACC) と適応交通信号制御 (ATSC) を組み合わせた,インテリジェント交通システムのための複数のベンチマークを用いて,本アルゴリズムの評価を行った。
実験の結果,本手法はデータ効率が優れ,真のモデルを用いたモデルフリー手法の性能に匹敵することがわかった。
関連論文リスト
- Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Distributional Successor Features Enable Zero-Shot Policy Optimization [36.53356539916603]
本研究は、ゼロショットポリシー最適化のための分散継承機能(DiSPO)という、新しいモデルのクラスを提案する。
DiSPOは、定常データセットの行動ポリシーの後継機能の分布と、データセット内で達成可能な異なる後継機能を実現するためのポリシーを学ぶ。
データセットの長期的な結果を直接モデル化することにより、DiSPOは、報酬関数をまたいだゼロショットポリシー最適化のための単純なスキームを実現しつつ、複雑なエラーを避けることができる。
論文 参考訳(メタデータ) (2024-03-10T22:27:21Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Gradient-based Planning with World Models [21.9392160209565]
我々は、世界モデルの微分可能性を完全に活用する勾配に基づく代替案について検討する。
サンプル効率のよい設定では、ほとんどのタスクの代替手法と比較して、同等あるいは優れた性能が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:54:21Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。