論文の概要: MSVIPER: Improved Policy Distillation for Reinforcement-Learning-Based
Robot Navigation
- arxiv url: http://arxiv.org/abs/2209.09079v1
- Date: Mon, 19 Sep 2022 15:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 17:17:40.421891
- Title: MSVIPER: Improved Policy Distillation for Reinforcement-Learning-Based
Robot Navigation
- Title(参考訳): MSVIPER:強化学習型ロボットナビゲーションのための政策蒸留の改善
- Authors: Aaron M. Roth, Jing Liang, Ram Sriram, Elham Tabassi, and Dinesh
Manocha
- Abstract要約: 政策抽出(MSVIPER)による多シナリオ検証強化学習を提案する。
MSVIPERは、ステートアクションマッピングの学習を含む強化学習(RL)技術を使って、"エキスパート"ポリシーを学ぶ。
我々は、MSVIPERが効率的な決定木となり、専門家ポリシーの振る舞いを正確に模倣できることを実証する。
- 参考スコア(独自算出の注目度): 46.32001721656828
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Multiple Scenario Verifiable Reinforcement Learning via Policy
Extraction (MSVIPER), a new method for policy distillation to decision trees
for improved robot navigation. MSVIPER learns an "expert" policy using any
Reinforcement Learning (RL) technique involving learning a state-action mapping
and then uses imitation learning to learn a decision-tree policy from it. We
demonstrate that MSVIPER results in efficient decision trees and can accurately
mimic the behavior of the expert policy. Moreover, we present efficient policy
distillation and tree-modification techniques that take advantage of the
decision tree structure to allow improvements to a policy without retraining.
We use our approach to improve the performance of RL-based robot navigation
algorithms for indoor and outdoor scenes. We demonstrate the benefits in terms
of reduced freezing and oscillation behaviors (by up to 95\% reduction) for
mobile robots navigating among dynamic obstacles and reduced vibrations and
oscillation (by up to 17\%) for outdoor robot navigation on complex, uneven
terrains.
- Abstract(参考訳): 本稿では,ロボットナビゲーションの改善を目的とした決定木に対する政策蒸留法であるMSVIPER(Multiple Scenario Verifiable Reinforcement Learning via Policy extract)を提案する。
MSVIPERは、状態-行動マッピングの学習を含む強化学習(RL)技術を用いて「専門家」ポリシーを学び、それから模倣学習を使用して意思決定ツリーポリシーを学習する。
我々は、MSVIPERが効率的な決定木となり、専門家ポリシーの振る舞いを正確に模倣できることを実証する。
さらに,決定木構造を生かした効率的な方針蒸留とツリー修正技術により,再訓練を行わずに方針改善が可能となる。
本手法は,屋内および屋外のシーンにおけるrlロボットナビゲーションアルゴリズムの性能向上に活用する。
本研究は, 移動ロボットの動的障害物間移動における凍結・振動挙動の低減(最大95%削減)と, 複雑で不均一な地形での屋外ロボットナビゲーションにおける振動・振動の低減(最大17%削減)の利点を実証する。
関連論文リスト
- Research on Autonomous Robots Navigation based on Reinforcement Learning [13.559881645869632]
我々は、経路計画と意思決定プロセスを最適化するために、Deep Q Network (DQN) と Proximal Policy Optimization (PPO) モデルを使用します。
様々な複雑なシナリオにおいて,これらのモデルの有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2024-07-02T00:44:06Z) - Deep Reinforcement Learning with Enhanced PPO for Safe Mobile Robot Navigation [0.6554326244334868]
本研究では,複雑な環境下での自律走行のための移動ロボットの訓練における深層強化学習の適用について検討する。
このロボットは、LiDARセンサデータとディープニューラルネットワークを用いて、障害物を回避しつつ、特定の目標に向かって誘導する制御信号を生成する。
論文 参考訳(メタデータ) (2024-05-25T15:08:36Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Robot path planning using deep reinforcement learning [0.0]
強化学習法は、地図のないナビゲーションタスクに代わる手段を提供する。
障害物回避と目標指向ナビゲーションタスクの両方に深部強化学習エージェントを実装した。
報酬関数の変更によるエージェントの挙動と性能の変化を解析する。
論文 参考訳(メタデータ) (2023-02-17T20:08:59Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Human-Aware Robot Navigation via Reinforcement Learning with Hindsight
Experience Replay and Curriculum Learning [28.045441768064215]
強化学習アプローチは、シーケンシャルな意思決定問題を解決する優れた能力を示している。
本研究では,実演データを使わずにRLエージェントを訓練する作業を検討する。
密集層における最適なナビゲーションポリシーを効率的に学習するために,後視体験リプレイ(HER)とカリキュラム学習(CL)技術をRLに組み込むことを提案する。
論文 参考訳(メタデータ) (2021-10-09T13:18:11Z) - XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees [55.9643422180256]
本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
論文 参考訳(メタデータ) (2021-04-22T01:33:10Z) - Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning [65.88200578485316]
本稿では,ロボットが動的変化に迅速に適応できるメタ学習手法を提案する。
提案手法は高雑音環境における動的変化への適応性を著しく改善する。
我々は、動的に変化しながら歩くことを学習する四足歩行ロボットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-03-02T22:56:27Z) - Enhanced Adversarial Strategically-Timed Attacks against Deep
Reinforcement Learning [91.13113161754022]
本稿では,DRLに基づくナビゲーションシステムに対して,選択した時間フレーム上の物理ノイズパターンを妨害することにより,タイミングに基づく逆方向戦略を導入する。
実験結果から, 対向タイミング攻撃は性能低下を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2020-02-20T21:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。