論文の概要: MACOptions: Multi-Agent Learning with Centralized Controller and Options
Framework
- arxiv url: http://arxiv.org/abs/2302.03800v1
- Date: Tue, 7 Feb 2023 23:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 17:51:09.980892
- Title: MACOptions: Multi-Agent Learning with Centralized Controller and Options
Framework
- Title(参考訳): MACOptions: 集中型コントローラとオプションフレームワークによるマルチエージェント学習
- Authors: Alakh Aggarwal, Rishita Bansal, Parth Padalkar, Sriraam Natarajan
- Abstract要約: 集中型コントローラによるマルチエージェントの計画の実装を計画している。
ランダムポリシー、Qラーニング、およびオプションフレームワークによるQラーニングの3つのアプローチを比較した。
- 参考スコア(独自算出の注目度): 10.0578867188587
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: These days automation is being applied everywhere. In every environment,
planning for the actions to be taken by the agents is an important aspect. In
this paper, we plan to implement planning for multi-agents with a centralized
controller. We compare three approaches: random policy, Q-learning, and
Q-learning with Options Framework. We also show the effectiveness of planners
by showing performance comparison between Q-Learning with Planner and without
Planner.
- Abstract(参考訳): 最近の自動化はどこでも適用されています。
あらゆる環境において、エージェントによって取られるアクションの計画が重要な側面である。
本稿では,集中型コントローラを用いたマルチエージェントの計画実装を計画する。
ランダムポリシー、Qラーニング、オプションフレームワークによるQラーニングの3つのアプローチを比較した。
また,プランナーによるQ-Learningとプランナーによる性能比較を行い,プランナーを使わずにプランナーの有効性を示す。
関連論文リスト
- A Framework for dynamically meeting performance objectives on a service
mesh [0.0]
サービスメッシュ上で並列に実行される複数のサービスに対して,エンドツーエンドの管理目標を達成するためのフレームワークを提案する。
実資源に対して定期的に制御動作を行うエージェントの訓練に強化学習技術を適用した。
論文 参考訳(メタデータ) (2023-06-25T09:08:41Z) - On Computing Universal Plans for Partially Observable Multi-Agent Path
Finding [11.977931648859176]
汎用計画問題としてマルチエージェントルーティング問題を定式化することは有益である,と我々は主張する。
ASP-MAUPF (Answer Set Programming for Multi-Agent Universal Plan Finding) と呼ばれるシステムを実装した。
論文 参考訳(メタデータ) (2023-05-25T16:06:48Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Planning-oriented Autonomous Driving [60.93767791255728]
我々は、最終目標、すなわち自動運転車の計画を追求するために、好ましいフレームワークを考案し、最適化すべきであると主張している。
フルスタック運転タスクをひとつのネットワークに組み込んだ総合的なフレームワークであるUnified Autonomous Driving (UniAD)を紹介した。
論文 参考訳(メタデータ) (2022-12-20T10:47:53Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Multi-Job Intelligent Scheduling with Cross-Device Federated Learning [65.69079337653994]
フェデレートラーニング(FL)は、センシティブな生データを共有せずに、協調的なグローバル機械学習モデルのトレーニングを可能にする。
本稿では,複数のジョブを並列にトレーニングできる新しいマルチジョブFLフレームワークを提案する。
本稿では,元来の強化学習に基づくスケジューリング手法と元来のベイズ最適化に基づくスケジューリング手法を含む,複数のスケジューリング手法に基づく新しいインテリジェントスケジューリング手法を提案する。
論文 参考訳(メタデータ) (2022-11-24T06:17:40Z) - GrASP: Gradient-Based Affordance Selection for Planning [25.548880832898757]
学習したモデルで計画することは、インテリジェンスの重要な要素であることは間違いない。
本稿では,計画に有用な価格選択手法を提案する。
プリミティブアクションとオプションの価格の両方を選択することを学ぶことは可能であることを示す。
論文 参考訳(メタデータ) (2022-02-08T03:24:36Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Improving Search by Utilizing State Information in OPTIC Planners
Compilation to LP [1.9686770963118378]
多くのプランナーはドメインに依存しないので、さまざまなドメインにデプロイできる。
これらのプランナーは、Forward Searchを実行し、リニアプログラミング(LP)ソルバを複数の状態に呼び出して、一貫性を確認し、数値変数にバウンダリを設定する。
本稿では, 評価中の特定の状態に関する情報を同定し, 方程式の定式化により, より優れた解法選択と高速なLP解法を実現する方法を提案する。
論文 参考訳(メタデータ) (2021-06-15T07:23:31Z) - Adjust Planning Strategies to Accommodate Reinforcement Learning Agents [0.0]
我々は、反応と計画の関連性の分析を通じて、パラメーターの最適化戦略を作成する。
アルゴリズム全体では、特定のエージェントの反応能力をフル活用して、計画パラメータの十分な設定を見つけることができる。
論文 参考訳(メタデータ) (2020-03-19T03:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。