論文の概要: Enhanced method for reinforcement learning based dynamic obstacle
avoidance by assessment of collision risk
- arxiv url: http://arxiv.org/abs/2212.04123v1
- Date: Thu, 8 Dec 2022 07:46:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 16:37:28.855039
- Title: Enhanced method for reinforcement learning based dynamic obstacle
avoidance by assessment of collision risk
- Title(参考訳): 衝突リスク評価による動的障害物回避に基づく強化学習の強化
- Authors: Fabian Hart, Ostap Okhrin
- Abstract要約: 本稿では,障害物回避作業の難易度を制御できる一般的な訓練環境を提案する。
トレーニングをタスクの難しさにシフトすることで,最終的なパフォーマンスを大幅に向上できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of autonomous robots, reinforcement learning (RL) is an
increasingly used method to solve the task of dynamic obstacle avoidance for
mobile robots, autonomous ships, and drones. A common practice to train those
agents is to use a training environment with random initialization of agent and
obstacles. Such approaches might suffer from a low coverage of high-risk
scenarios in training, leading to impaired final performance of obstacle
avoidance. This paper proposes a general training environment where we gain
control over the difficulty of the obstacle avoidance task by using short
training episodes and assessing the difficulty by two metrics: The number of
obstacles and a collision risk metric. We found that shifting the training
towards a greater task difficulty can massively increase the final performance.
A baseline agent, using a traditional training environment based on random
initialization of agent and obstacles and longer training episodes, leads to a
significantly weaker performance. To prove the generalizability of the proposed
approach, we designed two realistic use cases: A mobile robot and a maritime
ship under the threat of approaching obstacles. In both applications, the
previous results can be confirmed, which emphasizes the general usability of
the proposed approach, detached from a specific application context and
independent of the agent's dynamics. We further added Gaussian noise to the
sensor signals, resulting in only a marginal degradation of performance and
thus indicating solid robustness of the trained agent.
- Abstract(参考訳): 自律ロボットの分野において、強化学習(rl)は、移動ロボット、自律船、ドローンの動的な障害物回避のタスクを解決するためにますます使われる方法である。
これらのエージェントを訓練する一般的な実践は、エージェントと障害物のランダムな初期化を伴うトレーニング環境を使用することである。
このようなアプローチは、トレーニングにおけるリスクの高いシナリオのカバレッジが低く、障害物回避の最終性能が損なわれる可能性がある。
本稿では,短い訓練エピソードを用いて障害物回避作業の難易度を制御し,障害物数と衝突リスク指標の2つの指標を用いて難易度を評価する一般的な訓練環境を提案する。
トレーニングをタスクの難しさにシフトすることで,最終的なパフォーマンスを大幅に向上できることがわかった。
エージェントと障害物のランダムな初期化と長いトレーニングエピソードに基づく従来のトレーニング環境を使用するベースラインエージェントは、パフォーマンスが著しく低下する。
提案手法の汎用性を証明するため,我々は移動ロボットと海上船という,障害物に接近する恐れのある現実的な2つのユースケースを設計した。
どちらのアプリケーションでも,提案手法の汎用的ユーザビリティを強調し,特定のアプリケーションコンテキストから分離し,エージェントのダイナミクスとは無関係な,これまでの結果を確認することができる。
さらに, センサ信号にガウス雑音を付加することにより, 性能がわずかに低下するのみとなり, トレーニング剤の頑健性が示された。
関連論文リスト
- RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Towards Deviation-Robust Agent Navigation via Perturbation-Aware
Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。
本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-09T02:34:13Z) - Two-step dynamic obstacle avoidance [0.0]
本稿では、教師付きおよび強化学習(RL)を組み合わせることにより、動的障害物回避(DOA)タスクを扱うための2段階アーキテクチャを提案する。
最初のステップでは、リカレントニューラルネットワークを用いて障害物の衝突リスク(CR)を推定するデータ駆動アプローチを導入する。
第2ステップでは、これらのCR推定値をRLエージェントの観察空間に含め、その状況意識を高める。
論文 参考訳(メタデータ) (2023-11-28T14:55:50Z) - Collision Avoidance and Navigation for a Quadrotor Swarm Using End-to-end Deep Reinforcement Learning [8.864432196281268]
本研究では,障害物のある環境下での四元子群制御のためのエンドツーエンドDRL手法を提案する。
筆者らは, 障害物の多い環境下での性能向上を図るために, 衝突エピソードのカリキュラムと再生バッファを提供する。
我々の研究は、エンドツーエンドDRLで訓練された隣人回避および障害物回避制御ポリシーを学習する可能性を示す最初の研究である。
論文 参考訳(メタデータ) (2023-09-23T06:56:28Z) - Adversarial Training Should Be Cast as a Non-Zero-Sum Game [121.95628660889628]
対人訓練の2つのプレイヤーゼロサムパラダイムは、十分な強靭性を発揮できていない。
敵のトレーニングアルゴリズムでよく使われるサロゲートベースの緩和は、ロバスト性に関するすべての保証を無効にすることを示す。
対人訓練の新たな非ゼロサム二段階の定式化は、一致し、場合によっては最先端の攻撃よりも優れたフレームワークをもたらす。
論文 参考訳(メタデータ) (2023-06-19T16:00:48Z) - Semi-supervised Semantics-guided Adversarial Training for Trajectory
Prediction [15.707419899141698]
軌道予測に対する敵対的な攻撃は、将来の軌道予測を誤解させ、安全でない計画を引き起こす可能性がある。
本稿では,軌道予測のための新しい逆学習法を提案する。
本手法は、敵攻撃の影響を最大73%軽減し、他の一般的な防御方法より優れる。
論文 参考訳(メタデータ) (2022-05-27T20:50:36Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Adversarial Training is Not Ready for Robot Learning [55.493354071227174]
対人訓練は,ノルム有界摂動に耐性のあるディープラーニングモデルを訓練する有効な方法である。
敵訓練により得られたニューラルコントローラが3種類の欠陥を受けることを理論的および実験的に示す。
この結果から, ロボット学習にはまだ対応できていないことが示唆された。
論文 参考訳(メタデータ) (2021-03-15T07:51:31Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。