論文の概要: Train a Real-world Local Path Planner in One Hour via Partially
Decoupled Reinforcement Learning and Vectorized Diversity
- arxiv url: http://arxiv.org/abs/2305.04180v2
- Date: Wed, 17 Jan 2024 08:37:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 21:37:30.058276
- Title: Train a Real-world Local Path Planner in One Hour via Partially
Decoupled Reinforcement Learning and Vectorized Diversity
- Title(参考訳): 部分分離型強化学習とベクトル化ダイバーシティによる実世界のローカルパスプランナーの訓練
- Authors: Jinghao Xin, Jinwoo Kim, Zhi Li, and Ning Li
- Abstract要約: 深層強化学習(DRL)は局所経路計画(LPP)問題の解決に有効である。
実世界におけるそのような応用は、DRLの訓練効率と一般化能力の不足により、非常に制限されている。
アクター・シャーラーラーナー(ASL)トレーニングフレームワークと移動ロボット指向シミュレータSparrowで構成されたColorというソリューションが提案されている。
- 参考スコア(独自算出の注目度): 8.068886870457561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) has exhibited efficacy in resolving the
Local Path Planning (LPP) problem. However, such application in the real world
is immensely limited due to the deficient training efficiency and
generalization capability of DRL. To alleviate these two issues, a solution
named Color is proposed, which consists of an Actor-Sharer-Learner (ASL)
training framework and a mobile robot-oriented simulator Sparrow. Specifically,
the ASL intends to improve the training efficiency of DRL algorithms. It
employs a Vectorized Data Collection (VDC) mode to expedite data acquisition,
decouples the data collection from model optimization by multithreading, and
partially connects the two procedures by harnessing a Time Feedback Mechanism
(TFM) to evade data underuse or overuse. Meanwhile, the Sparrow simulator
utilizes a 2D grid-based world, simplified kinematics, and conversion-free data
flow to achieve a lightweight design. The lightness facilitates vectorized
diversity, allowing diversified simulation setups across extensive copies of
the vectorized environments, resulting in a notable enhancement in the
generalization capability of the DRL algorithm being trained. Comprehensive
experiments, comprising 57 DRL benchmark environments, 32 simulated and 36
real-world LPP scenarios, have been conducted to corroborate the superiority of
our method in terms of efficiency and generalization. The code and the video of
this paper are accessible at https://github.com/XinJingHao/Color.
- Abstract(参考訳): 深層強化学習(DRL)は局所経路計画(LPP)問題の解決に有効である。
しかし、DRLの訓練効率と一般化能力の不足により、現実世界でのそのような応用は極めて限られている。
これら2つの問題を緩和するために、アクター・シャーラーラーナー(ASL)トレーニングフレームワークと移動ロボット指向シミュレータSparrowからなるColorというソリューションが提案されている。
具体的には、ASLはDRLアルゴリズムのトレーニング効率を改善することを目的としている。
データ取得の迅速化、マルチスレッディングによるモデル最適化からデータ収集を分離するベクタライズドデータ収集(vdc)モードを採用し、時間フィードバック機構(tfm)を利用して2つの手順を部分的に接続し、データの使用過多を回避する。
一方、Sparrowシミュレータは、2Dグリッドベースの世界、単純化されたキネマティクス、変換不要のデータフローを利用して軽量な設計を実現している。
明度はベクトル化の多様性を促進し、ベクトル化された環境の広いコピーにまたがる多様なシミュレーション設定を可能にし、DRLアルゴリズムの一般化能力の顕著な向上をもたらす。
57 DRL ベンチマーク環境,32 のシミュレーション,36 の実世界の LPP シナリオからなる総合的な実験を行い,効率と一般化の観点から,本手法の優位性を実証した。
この論文のコードとビデオはhttps://github.com/xinjinghao/color.comで閲覧できます。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - Transfer of Reinforcement Learning-Based Controllers from Model- to
Hardware-in-the-Loop [1.8218298349840023]
強化学習は、自律的な訓練エージェントが複雑な制御タスクを実行する大きな可能性を秘めている。
組み込みシステム機能開発においてRLを効果的に利用するには、生成されたエージェントが現実世界のアプリケーションを扱う必要がある。
本研究は,Transfer Learning(TL)とX-in-the-Loop(XiL)シミュレーションを組み合わせることで,RLエージェントのトレーニングプロセスの高速化に重点を置いている。
論文 参考訳(メタデータ) (2023-10-25T09:13:12Z) - A Real-World Quadrupedal Locomotion Benchmark for Offline Reinforcement
Learning [27.00483962026472]
現実的な四足歩行データセットにおける11のオフライン強化学習アルゴリズムをベンチマークした。
実験の結果,ORLアルゴリズムはモデルフリーのRLに比べて競争性能がよいことがわかった。
提案するベンチマークは,実世界の歩行作業におけるORLアルゴリズムの性能をテスト・評価するための開発プラットフォームとして機能する。
論文 参考訳(メタデータ) (2023-09-13T13:18:29Z) - Personalized Federated Deep Reinforcement Learning-based Trajectory
Optimization for Multi-UAV Assisted Edge Computing [22.09756306579992]
UAVはエッジコンピューティング環境でインテリジェントなサーバとして機能し、通信システムのスループットを最大化するために飛行軌道を最適化する。
深部強化学習(DRL)に基づく軌道最適化アルゴリズムは、複雑な地形特徴と不十分な訓練データにより、訓練性能が低下する可能性がある。
本研究は,マルチUAV軌道最適化のための新しい手法,すなわちパーソナライズされた深部強化学習(PF-DRL)を提案する。
論文 参考訳(メタデータ) (2023-09-05T12:54:40Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。
最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。
提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文 参考訳(メタデータ) (2021-11-26T18:44:59Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。