Fugu-MT 論文翻訳(概要): Cloud-Edge Training Architecture for Sim-to-Real Deep Reinforcement Learning

論文の概要: Cloud-Edge Training Architecture for Sim-to-Real Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2203.02230v1
Date: Fri, 4 Mar 2022 10:27:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-07 16:23:59.402147
Title: Cloud-Edge Training Architecture for Sim-to-Real Deep Reinforcement Learning
Title（参考訳）: 深層強化学習のためのクラウドエッジトレーニングアーキテクチャ
Authors: Hongpeng Cao, Mirco Theile, Federico G. Wyrwal, and Marco Caccamo
Abstract要約: 深層強化学習(DRL)は、環境との相互作用を通じてポリシーを学習することで複雑な制御課題を解決するための有望な手法である。 Sim-to-realアプローチはシミュレーションを利用してDRLポリシーを事前訓練し、現実世界にデプロイする。本研究では,リアルタイムにDRLエージェントをトレーニングするための分散クラウドエッジアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 0.8399688944263843
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep reinforcement learning (DRL) is a promising approach to solve complex control tasks by learning policies through interactions with the environment. However, the training of DRL policies requires large amounts of training experiences, making it impractical to learn the policy directly on physical systems. Sim-to-real approaches leverage simulations to pretrain DRL policies and then deploy them in the real world. Unfortunately, the direct real-world deployment of pretrained policies usually suffers from performance deterioration due to the different dynamics, known as the reality gap. Recent sim-to-real methods, such as domain randomization and domain adaptation, focus on improving the robustness of the pretrained agents. Nevertheless, the simulation-trained policies often need to be tuned with real-world data to reach optimal performance, which is challenging due to the high cost of real-world samples. This work proposes a distributed cloud-edge architecture to train DRL agents in the real world in real-time. In the architecture, the inference and training are assigned to the edge and cloud, separating the real-time control loop from the computationally expensive training loop. To overcome the reality gap, our architecture exploits sim-to-real transfer strategies to continue the training of simulation-pretrained agents on a physical system. We demonstrate its applicability on a physical inverted-pendulum control system, analyzing critical parameters. The real-world experiments show that our architecture can adapt the pretrained DRL agents to unseen dynamics consistently and efficiently.
Abstract（参考訳）: 深層強化学習(DRL)は、環境との相互作用を通じてポリシーを学習することで複雑な制御課題を解決するための有望な手法である。しかしながら、drlポリシーのトレーニングには大量のトレーニング経験が必要であり、物理システム上で直接ポリシーを学ぶことは現実的ではない。 Sim-to-realアプローチはシミュレーションを利用してDRLポリシーを事前訓練し、現実世界にデプロイする。残念なことに、事前訓練されたポリシーの現実世界への直接配置は、通常、現実のギャップとして知られる異なるダイナミクスによるパフォーマンス低下に苦しむ。ドメインランダム化やドメイン適応のような最近のsim-to-realメソッドは、事前訓練されたエージェントの堅牢性の改善に焦点を当てている。それにもかかわらず、シミュレーションによって訓練されたポリシーは、しばしば最適なパフォーマンスを得るために現実世界のデータと調整する必要がある。本研究では,リアルタイムにDRLエージェントをトレーニングするための分散クラウドエッジアーキテクチャを提案する。アーキテクチャでは、推論とトレーニングはエッジとクラウドに割り当てられ、リアルタイム制御ループと計算に高価なトレーニングループを分離する。現実のギャップを克服するため,本アーキテクチャはシミュレーション事前学習エージェントのトレーニングを物理システム上で継続するためにsim-to-real転送戦略を利用する。物理逆振り制御システムに適用可能性を示し、臨界パラメータを解析する。実世界の実験により、我々のアーキテクチャは、事前訓練されたDRLエージェントを連続的かつ効率的に観察できないダイナミクスに適応できることを示した。

関連論文リスト

A General Infrastructure and Workflow for Quadrotor Deep Reinforcement Learning and Reality Deployment [48.90852123901697]
本稿では, エンドツーエンドの深層強化学習(DRL)ポリシーを四元数へシームレスに移行できるプラットフォームを提案する。本プラットフォームは, ホバリング, 動的障害物回避, 軌道追尾, 気球打上げ, 未知環境における計画など, 多様な環境を提供する。
論文参考訳（メタデータ） (2025-04-21T14:25:23Z)
LoopSR: Looping Sim-and-Real for Lifelong Policy Adaptation of Legged Robots [20.715834172041763]
デプロイ後の段階において、RLポリシーを継続的に洗練する、生涯にわたるポリシー適応フレームワークであるLoopSRを提案する。 LoopSRはトランスフォーマーベースのエンコーダを使用して、現実世界の軌道を潜在空間にマッピングする。オートエンコーダアーキテクチャとコントラスト学習手法を採用し、実世界のダイナミクスの特徴抽出を強化する。
論文参考訳（メタデータ） (2024-09-26T16:02:25Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Grow Your Limits: Continuous Improvement with Real-World RL for Robotic Locomotion [66.69666636971922]
本稿では,ロボットの学習過程における探索を調節するポリシー正規化フレームワークであるAPRLを提案する。 APRLは四足歩行ロボットを、数分で完全に現実世界を歩けるように効率よく学習する。
論文参考訳（メタデータ） (2023-10-26T17:51:46Z)
Prompt to Transfer: Sim-to-Real Transfer for Traffic Signal Control with Prompt Learning [4.195122359359966]
大規模言語モデル(LLM)は大量知識に基づいて訓練されており、驚くべき推論能力を備えていることが判明した。本研究では,LLMを利用してシステムダイナミクスの理解と解析を行う。
論文参考訳（メタデータ） (2023-08-28T03:49:13Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
A Platform-Agnostic Deep Reinforcement Learning Framework for Effective Sim2Real Transfer towards Autonomous Driving [0.0]
深層強化学習(DRL)は複雑なタスクの解決に顕著な成功を収めた。シミュレーションと現実の間に大きな違いがあるため、DRLエージェントを現実世界に転送することは依然として困難である。本稿では、プラットフォームに依存した認識モジュールを利用してタスク関連情報を抽出する頑健なDRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-04-14T07:55:07Z)
When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning [7.786094194874359]
本稿では,この問題に対する肯定的な回答を提供するために,Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning (H2O)フレームワークを提案する。 H2Oは動的に認識されたポリシー評価スキームを導入し、大きなダイナミックスギャップを持つシミュレーション状態-作用対上でQ関数学習を適応的にペナルティ化する。我々は、他のドメイン間のオンラインおよびオフラインRLアルゴリズムに対してH2Oの優れた性能を示す。
論文参考訳（メタデータ） (2022-06-27T17:18:11Z)
Robust Reinforcement Learning-based Autonomous Driving Agent for Simulation and Real World [0.0]
本稿では,Deep Q-Networks (DQN) を用いた自律型ロボット制御を実現するDRLベースのアルゴリズムを提案する。本手法では,エージェントはシミュレーション環境で訓練され,シミュレーション環境と実環境環境の両方をナビゲートすることができる。トレーニングされたエージェントは限られたハードウェアリソース上で動作することができ、そのパフォーマンスは最先端のアプローチに匹敵する。
論文参考訳（メタデータ） (2020-09-23T15:23:54Z)
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文参考訳（メタデータ） (2020-06-16T17:54:41Z)
RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。 RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文参考訳（メタデータ） (2020-06-16T08:58:07Z)
Sim-to-Real Transfer with Incremental Environment Complexity for Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文参考訳（メタデータ） (2020-04-30T10:47:02Z)
Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文参考訳（メタデータ） (2020-04-29T18:00:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。