論文の概要: Robot Navigation in a Crowd by Integrating Deep Reinforcement Learning
and Online Planning
- arxiv url: http://arxiv.org/abs/2102.13265v1
- Date: Fri, 26 Feb 2021 02:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 13:44:33.640723
- Title: Robot Navigation in a Crowd by Integrating Deep Reinforcement Learning
and Online Planning
- Title(参考訳): 深層強化学習とオンライン計画の統合による群集内ロボットナビゲーション
- Authors: Zhiqian Zhou, Pengming Zhu, Zhiwen Zeng, Junhao Xiao, Huimin Lu,
Zongtan Zhou
- Abstract要約: これは、群衆の中で時間効率と衝突のない道を移動するモバイルロボットにとって、まだオープンで挑戦的な問題です。
深層強化学習はこの問題に対する有望な解決策である。
グラフに基づく深部強化学習手法SG-DQNを提案する。
私たちのモデルは、ロボットが群衆をよりよく理解し、群衆ナビゲーションタスクで0.99以上の高い成功率を達成するのに役立ちます。
- 参考スコア(独自算出の注目度): 8.211771115758381
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is still an open and challenging problem for mobile robots navigating
along time-efficient and collision-free paths in a crowd. The main challenge
comes from the complex and sophisticated interaction mechanism, which requires
the robot to understand the crowd and perform proactive and foresighted
behaviors. Deep reinforcement learning is a promising solution to this problem.
However, most previous learning methods incur a tremendous computational
burden. To address these problems, we propose a graph-based deep reinforcement
learning method, SG-DQN, that (i) introduces a social attention mechanism to
extract an efficient graph representation for the crowd-robot state; (ii)
directly evaluates the coarse q-values of the raw state with a learned dueling
deep Q network(DQN); and then (iii) refines the coarse q-values via online
planning on possible future trajectories. The experimental results indicate
that our model can help the robot better understand the crowd and achieve a
high success rate of more than 0.99 in the crowd navigation task. Compared
against previous state-of-the-art algorithms, our algorithm achieves an
equivalent, if not better, performance while requiring less than half of the
computational cost.
- Abstract(参考訳): これは、群衆の中で時間効率と衝突のない道を移動するモバイルロボットにとって、まだオープンで挑戦的な問題です。
主な課題は、ロボットが群衆を理解して、前向きで前向きな行動を実行することを必要とする、複雑で洗練された相互作用メカニズムである。
深層強化学習はこの問題に対する有望な解決策である。
しかし,従来の学習手法は計算処理の負担が大きい。
これらの問題に対処するために,グラフに基づく深層強化学習手法であるSG-DQNを提案する。 (i) 群集ロボット状態に対する効率的なグラフ表現を抽出するためのソーシャルアテンション機構を導入し, (ii) 学習した深層Qネットワーク(DQN) を用いて生状態の粗面q値を直接評価し, (iii) 将来軌道のオンライン計画を通じて粗面q値の洗練を行う。
実験結果から,ロボットは群集の理解を深め,群集ナビゲーションタスクにおいて0.99以上の成功率を達成できることが示唆された。
従来の最先端アルゴリズムと比較すると,提案アルゴリズムは計算コストの半減を必要とせず,同等の性能を実現している。
関連論文リスト
- Multi-Objective Algorithms for Learning Open-Ended Robotic Problems [1.0124625066746598]
四足歩行は、自動運転車の普及に不可欠な複雑でオープンな問題である。
従来の強化学習アプローチは、トレーニングの不安定性とサンプルの非効率のため、しばしば不足する。
自動カリキュラム学習機構として多目的進化アルゴリズムを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T16:26:42Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - On-Robot Bayesian Reinforcement Learning for POMDPs [16.667924736270415]
本稿では,ロボット工学におけるベイズ強化学習を,物理システムのための特殊フレームワークの提案により進める。
この知識を因子表現で捉え、後続の分解を同様の形で示し、最終的にベイズ的枠組みでモデルを定式化する。
次に,モンテカルロ木探索と粒子フィルタリングに基づくサンプルベースオンライン解法を提案する。
論文 参考訳(メタデータ) (2023-07-22T01:16:29Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - TransPath: Learning Heuristics For Grid-Based Pathfinding via
Transformers [64.88759709443819]
探索の効率を顕著に向上させると考えられる,インスタンス依存のプロキシを学習することを提案する。
私たちが最初に学ぶことを提案するプロキシは、補正係数、すなわち、インスタンスに依存しないコスト・ツー・ゴの見積もりと完璧な見積もりの比率である。
第2のプロキシはパス確率であり、グリッドセルが最も短いパスに横たわっている可能性を示している。
論文 参考訳(メタデータ) (2022-12-22T14:26:11Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - Centralizing State-Values in Dueling Networks for Multi-Robot
Reinforcement Learning Mapless Navigation [87.85646257351212]
本稿では,CTDE(Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題点について考察する。
この問題は、各ロボットが観察を他のロボットと明示的に共有することなく、その経路を考えると困難である。
我々は,集中型状態値ネットワークを用いて共同状態値を計算するCTDEの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-16T16:47:00Z) - How to reduce computation time while sparing performance during robot
navigation? A neuro-inspired architecture for autonomous shifting between
model-based and model-free learning [1.3854111346209868]
本稿では,性能とコストを明示的に測定する学習システム間の新たな調停機構を提案する。
ロボットは,学習システム間の切り替えによって環境変化に適応し,高い性能を維持することができる。
タスクが安定すると、ロボットは自律的に最もコストのかかるシステムに移行し、高い性能を維持しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2020-04-30T11:29:16Z) - Leveraging Rationales to Improve Human Task Performance [15.785125079811902]
計算システムの性能が人間のユーザを上回ることを考えれば、人間のパフォーマンスを改善するために説明可能なAI能力を活用することができるだろうか?
本稿では,ユーティリティベースの計算手法の合理性を自動生成するRationale-Generating Algorithmを紹介する。
以上の結果から,本手法は人事性能の統計的改善につながる有理性を生み出すことが示唆された。
論文 参考訳(メタデータ) (2020-02-11T04:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。