論文の概要: A Scalable and Parallelizable Digital Twin Framework for Sustainable Sim2Real Transition of Multi-Agent Reinforcement Learning Systems
- arxiv url: http://arxiv.org/abs/2403.10996v2
- Date: Mon, 16 Sep 2024 14:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-18 02:45:24.180111
- Title: A Scalable and Parallelizable Digital Twin Framework for Sustainable Sim2Real Transition of Multi-Agent Reinforcement Learning Systems
- Title(参考訳): マルチエージェント強化学習システムの持続可能Sim2Real遷移のための拡張性と並列化可能なディジタルツインフレームワーク
- Authors: Chinmay Vilas Samak, Tanmay Vilas Samak, Venkat Krovi,
- Abstract要約: マルチエージェント強化学習(MARL)システムは通常、その固有の複雑さのために、非常に長い訓練時間を必要とする。
本研究では、MARLトレーニングをオンデマンドで選択的にスケーリングすることで、MARLトレーニングを高速化するデジタルツインフレームワークを提案する。
その結果、提案した並列化方式でトレーニング時間を最大76.3%削減し、提案手法を用いて2.9%のsim2realギャップを減らした。
- 参考スコア(独自算出の注目度): 1.0582505915332336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) systems usually require significantly long training times due to their inherent complexity. Furthermore, deploying them in the real world demands a feature-rich environment along with multiple embodied agents, which may not be feasible due to budget or space limitations, not to mention energy consumption and safety issues. This work tries to address these pain points by presenting a sustainable digital twin framework capable of accelerating MARL training by selectively scaling parallelized workloads on-demand, and transferring the trained policies from simulation to reality using minimal hardware resources. The applicability of the proposed digital twin framework is highlighted through two representative use cases, which cover cooperative as well as competitive classes of MARL problems. We study the effect of agent and environment parallelization on training time and that of systematic domain randomization on zero-shot sim2real transfer across both the case studies. Results indicate up to 76.3% reduction in training time with the proposed parallelization scheme and as low as 2.9% sim2real gap using the suggested deployment method.
- Abstract(参考訳): マルチエージェント強化学習(MARL)システムは通常、その固有の複雑さのために、非常に長い訓練時間を必要とする。
さらに、これらを現実世界に展開するには、エネルギー消費や安全性の問題だけでなく、予算や空間制限のために実現不可能な、複数の実施エージェントとともに機能豊富な環境が必要である。
この研究は、必要に応じて並列化されたワークロードを選択的にスケーリングし、最小限のハードウェアリソースを使用してトレーニングされたポリシーをシミュレーションから現実に転送することで、MARLトレーニングを加速できる持続可能なデジタルツインフレームワークを提供することによって、これらの問題点に対処しようとしている。
提案するディジタルツインフレームワークの適用性は,MARL問題における協調的および競合的クラスをカバーする2つの代表的なユースケースを通じて強調される。
エージェントと環境の並列化が訓練時間および系統的領域ランダム化に及ぼす影響を両事例で検討した。
その結果、提案した並列化方式でトレーニング時間を最大76.3%削減し、提案手法を用いて2.9%のsim2realギャップを減らした。
関連論文リスト
- Video2Policy: Scaling up Manipulation Tasks in Simulation through Internet Videos [61.925837909969815]
我々は,インターネット上のRGBビデオを利用して日常の人間行動に基づいてタスクを再構築する新しいフレームワークであるVideo2Policyを紹介した。
本手法は投球のような複雑で困難なタスクを含む,そのようなタスクに対するRLポリシーのトレーニングに成功している。
生成したシミュレーションデータは,一般的なポリシをトレーニングするためにスケールアップ可能であり,Real2Sim2Real方式で実ロボットに転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-14T03:22:03Z) - Staged Reinforcement Learning for Complex Tasks through Decomposed
Environments [4.883558259729863]
RL問題を実問題に近似する2つの方法について議論する。
交通ジャンクションシミュレーションの文脈において、複雑なタスクを複数のサブタスクに分解できれば、これらのタスクを最初に解くのが有利であることを示す。
多エージェントの観点から、我々は、CTDE(Centralized Training Decentralized Execution)と呼ばれる一般的なパラダイムの下で学んだ経験の活用を活用するトレーニング構造化機構を導入する。
論文 参考訳(メタデータ) (2023-11-05T19:43:23Z) - Marginalized Importance Sampling for Off-Environment Policy Evaluation [13.824507564510503]
強化学習法(Reinforcement Learning, RL)は、通常、サンプル非効率であり、実世界のロボットでRLポリティエの訓練と展開が困難である。
本稿では,エージェントポリシーを実環境にデプロイする前に,エージェントポリシーの現実的性能を評価するための新しいアプローチを提案する。
提案手法では,実世界のオフラインデータとともにシミュレータを組み込んで,任意のポリシーの性能評価を行う。
論文 参考訳(メタデータ) (2023-09-04T20:52:04Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - A Platform-Agnostic Deep Reinforcement Learning Framework for Effective Sim2Real Transfer towards Autonomous Driving [0.0]
深層強化学習(DRL)は複雑なタスクの解決に顕著な成功を収めた。
シミュレーションと現実の間に大きな違いがあるため、DRLエージェントを現実世界に転送することは依然として困難である。
本稿では、プラットフォームに依存した認識モジュールを利用してタスク関連情報を抽出する頑健なDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-14T07:55:07Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - Multi-Agent Reinforcement Learning for Long-Term Network Resource
Allocation through Auction: a V2X Application [7.326507804995567]
我々は,自律エージェント間の分散意思決定として,移動エージェントの動的グループ(自動車など)からの計算タスクのオフロードを定式化する。
我々は、競争と協力のバランスをとることで、そのようなエージェントにプライベートとシステム目標の整合を動機付けるインタラクションメカニズムを設計する。
本稿では,部分的,遅延,ノイズの多い状態情報を用いて学習する,新しいマルチエージェントオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T10:29:06Z) - From Multi-agent to Multi-robot: A Scalable Training and Evaluation
Platform for Multi-robot Reinforcement Learning [12.74238738538799]
マルチエージェント強化学習(MARL)は、過去数十年間、学術や産業から広く注目を集めてきた。
これらの手法が実際のシナリオ、特にマルチロボットシステムでどのように機能するかは未だ分かっていない。
本稿では,マルチロボット強化学習(MRRL)のためのスケーラブルなエミュレーションプラットフォームSMARTを提案する。
論文 参考訳(メタデータ) (2022-06-20T06:36:45Z) - Efficient Distributed Framework for Collaborative Multi-Agent
Reinforcement Learning [17.57163419315147]
不完全な情報環境に対するマルチエージェント強化学習は研究者から広く注目を集めている。
不安定なモデルイテレーションや訓練効率の低下など、マルチエージェント強化学習には依然としていくつかの問題がある。
本稿では,アクター-ワーク-ラーナーアーキテクチャに基づく分散MARLフレームワークを設計する。
論文 参考訳(メタデータ) (2022-05-11T03:12:49Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。
最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。
我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文 参考訳(メタデータ) (2021-03-04T18:44:03Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - The reinforcement learning-based multi-agent cooperative approach for
the adaptive speed regulation on a metallurgical pickling line [0.0]
提案手法は,基本アルゴリズムとしての数学的モデリングと協調型マルチエージェント強化学習システムを組み合わせたものである。
我々は、重工業における現実的なタスクに対して、Deep Q-Learningをどのように適用できるかを実証し、既存の自動化システムを大幅に改善した。
論文 参考訳(メタデータ) (2020-08-16T15:10:39Z) - From Simulation to Real World Maneuver Execution using Deep
Reinforcement Learning [69.23334811890919]
深層強化学習(Deep Reinforcement Learning)は、さまざまな分野における多くの制御タスクを解決できることが証明されている。
これは主に、シミュレーションデータと実世界のデータ間のドメイン適応の欠如と、トレインデータセットとテストデータセットの区別の欠如による。
本稿では,エージェントが同時に訓練される複数の環境に基づくシステムを提案する。
論文 参考訳(メタデータ) (2020-05-13T14:22:20Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。