Fugu-MT 論文翻訳(概要): A Scalable and Parallelizable Digital Twin Framework for Sustainable Sim2Real Transition of Multi-Agent Reinforcement Learning Systems

論文の概要: A Scalable and Parallelizable Digital Twin Framework for Sustainable Sim2Real Transition of Multi-Agent Reinforcement Learning Systems

arxiv url: http://arxiv.org/abs/2403.10996v1
Date: Sat, 16 Mar 2024 18:47:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 20:36:44.420710
Title: A Scalable and Parallelizable Digital Twin Framework for Sustainable Sim2Real Transition of Multi-Agent Reinforcement Learning Systems
Title（参考訳）: マルチエージェント強化学習システムの持続可能Sim2Real遷移のための拡張性と並列化可能なディジタルツインフレームワーク
Authors: Chinmay Vilas Samak, Tanmay Vilas Samak, Venkat Krovi,
Abstract要約: 本研究は,並列化トレーニングワークロードをオンデマンドで選択的にスケール可能な,持続可能なマルチエージェント深層強化学習フレームワークを提案する。我々は,AutoDRIVEエコシステムを,シミュレーションから現実への競争力のあるマルチエージェント強化学習ポリシと同様に,デジタルツインフレームワークによる協調の訓練,展開,転送を可能にするものとして紹介する。
参考スコア（独自算出の注目度）: 1.0582505915332336
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work presents a sustainable multi-agent deep reinforcement learning framework capable of selectively scaling parallelized training workloads on-demand, and transferring the trained policies from simulation to reality using minimal hardware resources. We introduce AutoDRIVE Ecosystem as an enabling digital twin framework to train, deploy, and transfer cooperative as well as competitive multi-agent reinforcement learning policies from simulation to reality. Particularly, we first investigate an intersection traversal problem of 4 cooperative vehicles (Nigel) that share limited state information in single as well as multi-agent learning settings using a common policy approach. We then investigate an adversarial autonomous racing problem of 2 vehicles (F1TENTH) using an individual policy approach. In either set of experiments, a decentralized learning architecture was adopted, which allowed robust training and testing of the policies in stochastic environments. The agents were provided with realistically sparse observation spaces, and were restricted to sample control actions that implicitly satisfied the imposed kinodynamic and safety constraints. The experimental results for both problem statements are reported in terms of quantitative metrics and qualitative remarks for training as well as deployment phases. We also discuss agent and environment parallelization techniques adopted to efficiently accelerate MARL training, while analyzing their computational performance. Finally, we demonstrate a resource-aware transition of the trained policies from simulation to reality using the proposed digital twin framework.
Abstract（参考訳）: 本研究は、並列化されたトレーニングワークロードをオンデマンドで選択的にスケーリングし、最小限のハードウェアリソースを使用して、トレーニングされたポリシをシミュレーションから現実へ移行可能な、持続可能なマルチエージェント深層強化学習フレームワークを提案する。我々は,AutoDRIVEエコシステムを,シミュレーションから現実への競争力のあるマルチエージェント強化学習ポリシと同様に,デジタルツインフレームワークによる協調の訓練,展開,転送を可能にするものとして紹介する。特に,コモン・ポリシー・アプローチを用いたマルチエージェント・ラーニング・セッティングとともに,限られた状態情報を共有する4台の協力車(ナイジェル)の交差点トラバース問題について検討した。次に、個別の政策アプローチを用いて、2台の車両(F1TENTH)の対向自律レース問題について検討する。いずれの実験でも、分散学習アーキテクチャが採用され、確率的環境におけるポリシーの堅牢なトレーニングとテストを可能にした。エージェントは現実的に疎らな観測空間を備えており、強制されたキノダイナミックおよび安全制約を暗黙的に満たすサンプル制御行動に制限されていた。両問題ステートメントの実験結果は、定量的な測定値と、トレーニングのための定性的な発言、およびデプロイメントフェーズの観点から報告される。また,MARL学習を効率的に高速化するエージェントと環境並列化手法についても検討し,その計算性能を解析した。最後に、提案したデジタルツインフレームワークを用いて、トレーニング済みポリシーのシミュレーションから現実への移行を実演する。

関連論文リスト

Video2Policy: Scaling up Manipulation Tasks in Simulation through Internet Videos [61.925837909969815]
我々は,インターネット上のRGBビデオを利用して日常の人間行動に基づいてタスクを再構築する新しいフレームワークであるVideo2Policyを紹介した。本手法は投球のような複雑で困難なタスクを含む,そのようなタスクに対するRLポリシーのトレーニングに成功している。生成したシミュレーションデータは,一般的なポリシをトレーニングするためにスケールアップ可能であり,Real2Sim2Real方式で実ロボットに転送可能であることを示す。
論文参考訳（メタデータ） (2025-02-14T03:22:03Z)
Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning [15.792914346054502]
我々は、カバーパス計画(CPP)のための強化学習エージェント(RL)のSim-to-real転送の課題に取り組む。シミュレーションされたセンサと障害物を利用しながら、現実のロボットやリアルタイムの側面を含む半仮想環境を通じて、シミュレートと現実のギャップを橋渡しする。高い推測周波数は、一階マルコフのポリシーをシミュレーションから直接転送することを可能にし、高階のポリシーを微調整することで、sim-to-realのギャップをさらに減らすことができる。
論文参考訳（メタデータ） (2024-06-07T13:24:19Z)
Staged Reinforcement Learning for Complex Tasks through Decomposed Environments [4.883558259729863]
RL問題を実問題に近似する2つの方法について議論する。交通ジャンクションシミュレーションの文脈において、複雑なタスクを複数のサブタスクに分解できれば、これらのタスクを最初に解くのが有利であることを示す。多エージェントの観点から、我々は、CTDE(Centralized Training Decentralized Execution)と呼ばれる一般的なパラダイムの下で学んだ経験の活用を活用するトレーニング構造化機構を導入する。
論文参考訳（メタデータ） (2023-11-05T19:43:23Z)
Marginalized Importance Sampling for Off-Environment Policy Evaluation [13.824507564510503]
強化学習法(Reinforcement Learning, RL)は、通常、サンプル非効率であり、実世界のロボットでRLポリティエの訓練と展開が困難である。本稿では,エージェントポリシーを実環境にデプロイする前に,エージェントポリシーの現実的性能を評価するための新しいアプローチを提案する。提案手法では,実世界のオフラインデータとともにシミュレータを組み込んで,任意のポリシーの性能評価を行う。
論文参考訳（メタデータ） (2023-09-04T20:52:04Z)
Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文参考訳（メタデータ） (2023-06-29T15:57:07Z)
A Platform-Agnostic Deep Reinforcement Learning Framework for Effective Sim2Real Transfer towards Autonomous Driving [0.0]
深層強化学習(DRL)は複雑なタスクの解決に顕著な成功を収めた。シミュレーションと現実の間に大きな違いがあるため、DRLエージェントを現実世界に転送することは依然として困難である。本稿では、プラットフォームに依存した認識モジュールを利用してタスク関連情報を抽出する頑健なDRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-04-14T07:55:07Z)
Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-27T14:47:52Z)
Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文参考訳（メタデータ） (2022-11-23T19:17:20Z)
Provable Sim-to-real Transfer in Continuous Domain with Partial Observations [39.18274543757048]
シン・トゥ・リアル・トランスファー(英語版)は、シミュレーション環境でRLエージェントを訓練し、実世界で展開する。実環境における最適政策と競合するシミュレートされた環境から、人気のある頑健な対人訓練アルゴリズムが、ポリシーを学習できることを示す。
論文参考訳（メタデータ） (2022-10-27T16:37:52Z)
Multi-Agent Reinforcement Learning for Long-Term Network Resource Allocation through Auction: a V2X Application [7.326507804995567]
我々は,自律エージェント間の分散意思決定として,移動エージェントの動的グループ(自動車など)からの計算タスクのオフロードを定式化する。我々は、競争と協力のバランスをとることで、そのようなエージェントにプライベートとシステム目標の整合を動機付けるインタラクションメカニズムを設計する。本稿では,部分的,遅延,ノイズの多い状態情報を用いて学習する,新しいマルチエージェントオンライン学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T10:29:06Z)
From Multi-agent to Multi-robot: A Scalable Training and Evaluation Platform for Multi-robot Reinforcement Learning [12.74238738538799]
マルチエージェント強化学習(MARL)は、過去数十年間、学術や産業から広く注目を集めてきた。これらの手法が実際のシナリオ、特にマルチロボットシステムでどのように機能するかは未だ分かっていない。本稿では,マルチロボット強化学習(MRRL)のためのスケーラブルなエミュレーションプラットフォームSMARTを提案する。
論文参考訳（メタデータ） (2022-06-20T06:36:45Z)
Efficient Distributed Framework for Collaborative Multi-Agent Reinforcement Learning [17.57163419315147]
不完全な情報環境に対するマルチエージェント強化学習は研究者から広く注目を集めている。不安定なモデルイテレーションや訓練効率の低下など、マルチエージェント強化学習には依然としていくつかの問題がある。本稿では,アクター-ワーク-ラーナーアーキテクチャに基づく分散MARLフレームワークを設計する。
論文参考訳（メタデータ） (2022-05-11T03:12:49Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
Scenic4RL: Programmatic Modeling and Generation of Reinforcement Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文参考訳（メタデータ） (2021-06-18T21:49:46Z)
ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。 ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文参考訳（メタデータ） (2021-06-10T04:32:20Z)
MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。 PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文参考訳（メタデータ） (2021-06-05T03:27:08Z)
Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文参考訳（メタデータ） (2021-03-04T18:44:03Z)
TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。 TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文参考訳（メタデータ） (2021-01-17T00:29:30Z)
The reinforcement learning-based multi-agent cooperative approach for the adaptive speed regulation on a metallurgical pickling line [0.0]
提案手法は,基本アルゴリズムとしての数学的モデリングと協調型マルチエージェント強化学習システムを組み合わせたものである。我々は、重工業における現実的なタスクに対して、Deep Q-Learningをどのように適用できるかを実証し、既存の自動化システムを大幅に改善した。
論文参考訳（メタデータ） (2020-08-16T15:10:39Z)
RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。 RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文参考訳（メタデータ） (2020-06-16T08:58:07Z)
From Simulation to Real World Maneuver Execution using Deep Reinforcement Learning [69.23334811890919]
深層強化学習(Deep Reinforcement Learning)は、さまざまな分野における多くの制御タスクを解決できることが証明されている。これは主に、シミュレーションデータと実世界のデータ間のドメイン適応の欠如と、トレインデータセットとテストデータセットの区別の欠如による。本稿では,エージェントが同時に訓練される複数の環境に基づくシステムを提案する。
論文参考訳（メタデータ） (2020-05-13T14:22:20Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。