論文の概要: XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees
- arxiv url: http://arxiv.org/abs/2104.10818v1
- Date: Thu, 22 Apr 2021 01:33:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 14:03:24.396555
- Title: XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees
- Title(参考訳): XAI-N:エキスパートポリシーと決定木を用いたセンサ型ロボットナビゲーション
- Authors: Aaron M. Roth, Jing Liang, and Dinesh Manocha
- Abstract要約: 本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
- 参考スコア(独自算出の注目度): 55.9643422180256
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a novel sensor-based learning navigation algorithm to compute a
collision-free trajectory for a robot in dense and dynamic environments with
moving obstacles or targets. Our approach uses deep reinforcement
learning-based expert policy that is trained using a sim2real paradigm. In
order to increase the reliability and handle the failure cases of the expert
policy, we combine with a policy extraction technique to transform the
resulting policy into a decision tree format. The resulting decision tree has
properties which we use to analyze and modify the policy and improve
performance on navigation metrics including smoothness, frequency of
oscillation, frequency of immobilization, and obstruction of target. We are
able to modify the policy to address these imperfections without retraining,
combining the learning power of deep learning with the control of
domain-specific algorithms. We highlight the benefits of our algorithm in
simulated environments and navigating a Clearpath Jackal robot among moving
pedestrians.
- Abstract(参考訳): 本稿では,ロボットの障害物や目標の移動を伴う密集した動的環境での衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
信頼性を高め,専門家政策の失敗事例を処理するため,政策抽出手法と組み合わせて,結果の方針を決定木形式に変換する。
得られた決定木は、ポリシーの分析と修正に使用し、滑らかさ、振動の頻度、固定化の頻度、目標の妨害など、ナビゲーションメトリクスのパフォーマンスを向上させる特性を有する。
我々は、深層学習の学習力とドメイン固有のアルゴリズムの制御を組み合わせることで、これらの不完全性に対応するためにポリシーを変更することができる。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
関連論文リスト
- Research on Autonomous Robots Navigation based on Reinforcement Learning [13.559881645869632]
我々は、経路計画と意思決定プロセスを最適化するために、Deep Q Network (DQN) と Proximal Policy Optimization (PPO) モデルを使用します。
様々な複雑なシナリオにおいて,これらのモデルの有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2024-07-02T00:44:06Z) - Deep Reinforcement Learning with Enhanced PPO for Safe Mobile Robot Navigation [0.6554326244334868]
本研究では,複雑な環境下での自律走行のための移動ロボットの訓練における深層強化学習の適用について検討する。
このロボットは、LiDARセンサデータとディープニューラルネットワークを用いて、障害物を回避しつつ、特定の目標に向かって誘導する制御信号を生成する。
論文 参考訳(メタデータ) (2024-05-25T15:08:36Z) - Robot path planning using deep reinforcement learning [0.0]
強化学習法は、地図のないナビゲーションタスクに代わる手段を提供する。
障害物回避と目標指向ナビゲーションタスクの両方に深部強化学習エージェントを実装した。
報酬関数の変更によるエージェントの挙動と性能の変化を解析する。
論文 参考訳(メタデータ) (2023-02-17T20:08:59Z) - MSVIPER: Improved Policy Distillation for Reinforcement-Learning-Based
Robot Navigation [46.32001721656828]
政策抽出(MSVIPER)による多シナリオ検証強化学習を提案する。
MSVIPERは、ステートアクションマッピングの学習を含む強化学習(RL)技術を使って、"エキスパート"ポリシーを学ぶ。
我々は、MSVIPERが効率的な決定木となり、専門家ポリシーの振る舞いを正確に模倣できることを実証する。
論文 参考訳(メタデータ) (2022-09-19T15:12:53Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Teaching a Robot to Walk Using Reinforcement Learning [0.0]
強化学習は 最適な歩行方針を 簡単に訓練できる
我々は,OpenAI Gym BipedalWalker-v3環境を用いて,2次元二足歩行ロボットに歩行の仕方を教える。
ARSはより優れた訓練を受けたロボットとなり、BipedalWalker-v3問題を公式に「解決」する最適なポリシーを生み出した。
論文 参考訳(メタデータ) (2021-12-13T21:35:45Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。