論文の概要: Relative velocity-based reward functions for crowd navigation of robots
- arxiv url: http://arxiv.org/abs/2112.13984v1
- Date: Tue, 28 Dec 2021 03:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-31 06:11:22.331931
- Title: Relative velocity-based reward functions for crowd navigation of robots
- Title(参考訳): ロボットの群集ナビゲーションにおける相対速度に基づく報酬関数
- Authors: Xiaoqing Yang, Fei Li
- Abstract要約: モバイルロボットの開発において,社会的に許容される基準でクラウド環境をナビゲートする方法は,依然として重要な課題である。
近年の研究では,歩行者の移動速度が向上するにつれて,群集ナビゲーションにおける深層強化学習の有効性が示されているが,学習効果は徐々に低下している。
深い強化学習の有効性を向上させるため,報酬関数に相対速度のペナルティ項を導入することで報酬関数を再設計した。
- 参考スコア(独自算出の注目度): 7.671375709255977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How to navigate effectively in crowd environments with socially acceptable
standards remains the key problem to be solved for the development of mobile
robots. Recent work has shown the effectiveness of deep reinforcement learning
in addressing crowd navigation, but the learning becomes progressively less
effective as the speed of pedestrians increases. To improve the effectiveness
of deep reinforcement learning, we redesigned the reward function by
introducing the penalty term of relative speed in the reward function. The
newly designed reward function is tested on three mainstream deep reinforcement
learning algorithms: deep reinforcement learning collision avoidance (CADRL),
deep learning based long and short-term memory (LSTM RL), and reinforcement
learning based on socialist riselection (SARL). The results of the experiments
show that our model navigates in a safer way, outperforming the current model
in key metrics such as success rate, collision rate, and hazard frequency.
- Abstract(参考訳): 社会的に許容される基準で群衆環境で効果的にナビゲートする方法は、モバイルロボットの開発のために解決すべき重要な課題である。
近年の研究では,歩行者の移動速度の増大に伴い,群集ナビゲーションにおける深層強化学習の有効性が示されている。
深い強化学習の有効性を向上させるため,報酬関数に相対速度のペナルティ項を導入することで報酬関数を再設計した。
新たに設計された報酬関数は、深層強化学習衝突回避(CADRL)、深層学習に基づく長期記憶(LSTM RL)、社会主義選択に基づく強化学習(SARL)という3つの主流の深層強化学習アルゴリズムで検証される。
実験の結果,我々は,成功率,衝突率,ハザード頻度といった重要な指標において,現在のモデルを上回って,より安全なナビゲートを行うことができた。
関連論文リスト
- Stranger Danger! Identifying and Avoiding Unpredictable Pedestrians in RL-based Social Robot Navigation [1.74102619371866]
我々は、RL政策が不慣れな状況において追加の注意を維持することを奨励する学習プロセスの変更を提案する。
従来のSARLポリシーと比較して、我々の修正されたポリシーは、同様の航法時間と経路長を維持しながら、衝突回数を82%削減する。
また、これらの修正を他のRLポリシーに適用する方法を説明し、我々のアプローチのいくつかの重要なハイレベルな振る舞いが物理ロボットに伝達されることを実証する。
論文 参考訳(メタデータ) (2024-07-08T15:58:33Z) - Primitive Skill-based Robot Learning from Human Evaluative Feedback [28.046559859978597]
強化学習アルゴリズムは、現実世界環境における長期ロボット操作タスクを扱う際に、課題に直面している。
本稿では,人間フィードバックからの強化学習(RLHF)と原始的スキルベース強化学習の2つのアプローチを活用する新しいフレームワークSEEDを提案する。
以上の結果から,SEEDはサンプル効率と安全性において最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T20:48:30Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。
CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。
我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - Deep Reinforcement Learning-Based Mapless Crowd Navigation with
Perceived Risk of the Moving Crowd for Mobile Robots [0.0]
現在最先端のクラウドナビゲーションアプローチは、主に深層強化学習(DRL)に基づくものである。
本研究では,観測空間に衝突確率(CP)を組み込んで,移動する群衆の危険度をロボットに知覚する手法を提案する。
論文 参考訳(メタデータ) (2023-04-07T11:29:59Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Human-Aware Robot Navigation via Reinforcement Learning with Hindsight
Experience Replay and Curriculum Learning [28.045441768064215]
強化学習アプローチは、シーケンシャルな意思決定問題を解決する優れた能力を示している。
本研究では,実演データを使わずにRLエージェントを訓練する作業を検討する。
密集層における最適なナビゲーションポリシーを効率的に学習するために,後視体験リプレイ(HER)とカリキュラム学習(CL)技術をRLに組み込むことを提案する。
論文 参考訳(メタデータ) (2021-10-09T13:18:11Z) - Reward Shaping with Subgoals for Social Navigation [7.6146285961466]
ソーシャルナビゲーションは、マシンインテリジェンスの成長と共に注目を集めている。
強化学習は、低い計算コストで予測フェーズのアクションを選択することができる。
学習を加速するサブゴールを用いた報酬形成手法を提案する。
論文 参考訳(メタデータ) (2021-04-13T13:52:58Z) - Enhanced Adversarial Strategically-Timed Attacks against Deep
Reinforcement Learning [91.13113161754022]
本稿では,DRLに基づくナビゲーションシステムに対して,選択した時間フレーム上の物理ノイズパターンを妨害することにより,タイミングに基づく逆方向戦略を導入する。
実験結果から, 対向タイミング攻撃は性能低下を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2020-02-20T21:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。