論文の概要: Two-step dynamic obstacle avoidance
- arxiv url: http://arxiv.org/abs/2311.16841v2
- Date: Mon, 19 Aug 2024 08:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 04:07:00.034528
- Title: Two-step dynamic obstacle avoidance
- Title(参考訳): 2段階動的障害物回避
- Authors: Fabian Hart, Martin Waltz, Ostap Okhrin,
- Abstract要約: 本稿では、教師付きおよび強化学習(RL)を組み合わせることにより、動的障害物回避(DOA)タスクを扱うための2段階アーキテクチャを提案する。
最初のステップでは、リカレントニューラルネットワークを用いて障害物の衝突リスク(CR)を推定するデータ駆動アプローチを導入する。
第2ステップでは、これらのCR推定値をRLエージェントの観察空間に含め、その状況意識を高める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic obstacle avoidance (DOA) is a fundamental challenge for any autonomous vehicle, independent of whether it operates in sea, air, or land. This paper proposes a two-step architecture for handling DOA tasks by combining supervised and reinforcement learning (RL). In the first step, we introduce a data-driven approach to estimate the collision risk (CR) of an obstacle using a recurrent neural network, which is trained in a supervised fashion and offers robustness to non-linear obstacle movements. In the second step, we include these CR estimates into the observation space of an RL agent to increase its situational awareness. We illustrate the power of our two-step approach by training different RL agents in a challenging environment that requires to navigate amid multiple obstacles. The non-linear movements of obstacles are exemplarily modeled based on stochastic processes and periodic patterns, although our architecture is suitable for any obstacle dynamics. The experiments reveal that integrating our CR metrics into the observation space doubles the performance in terms of reward, which is equivalent to halving the number of collisions in the considered environment. We also perform a generalization experiment to validate the proposal in an RL environment based on maritime traffic and real-world vessel trajectory data. Furthermore, we show that the architecture's performance improvement is independent of the applied RL algorithm.
- Abstract(参考訳): ダイナミック障害物回避(ダイナミック障害物回避、Dynamic obstacle avoidance、DOA)は、海、空気、陸地で運用されているかどうかに関わらず、あらゆる自動運転車にとって基本的な課題である。
本稿では、教師付きおよび強化学習(RL)を組み合わせた2段階のDOAタスク処理アーキテクチャを提案する。
最初のステップでは、リカレントニューラルネットワークを用いて障害物の衝突リスク(CR)を推定するデータ駆動型アプローチを導入する。
第2ステップでは、これらのCR推定値をRLエージェントの観察空間に含め、その状況意識を高める。
複数の障害物の中で移動する必要のある困難な環境で、異なるRLエージェントを訓練することで、2段階のアプローチのパワーを説明する。
障害物の非線形運動は確率過程と周期パターンに基づいて例示的にモデル化されるが,我々のアーキテクチャは任意の障害物力学に適している。
実験の結果、観測空間にCRメトリクスを組み込むことで、考慮された環境における衝突回数の半分に相当する報酬の2倍のパフォーマンスが得られることがわかった。
また,海上交通と実世界の船舶軌道データに基づいて,RL環境における提案手法の検証を行う。
さらに,アーキテクチャの性能改善は適用されたRLアルゴリズムとは無関係であることを示す。
関連論文リスト
- Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Controllable Adversaries [94.84458417662407]
本稿では,新しい拡散制御型クローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
我々は,認知過程における敵対的項を通して,安全クリティカルなシナリオをシミュレートする新しい手法を開発した。
我々はNuScenesデータセットを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z) - Sequential Neural Barriers for Scalable Dynamic Obstacle Avoidance [7.375976854181687]
SNCBF(Sequential Neural Control Barrier Model)の合成学習法を提案する。
複数の動的障害物の空間的相互作用パターンを分解し,各障害物の状態列を通じて予測することができる。
提案手法の利点は,既存の手法と比較して動的衝突回避を改善することである。
論文 参考訳(メタデータ) (2023-07-06T14:24:17Z) - Continuous Trajectory Generation Based on Two-Stage GAN [50.55181727145379]
本稿では,道路網上の連続軌道を生成するために,新たな2段階生成対向フレームワークを提案する。
具体的には、A*アルゴリズムの人間の移動性仮説に基づいてジェネレータを構築し、人間の移動性について学習する。
判別器では, 逐次報酬と移動ヤウ報酬を組み合わせることで, 発電機の有効性を高める。
論文 参考訳(メタデータ) (2023-01-16T09:54:02Z) - Enhanced method for reinforcement learning based dynamic obstacle
avoidance by assessment of collision risk [0.0]
本稿では,障害物回避作業の難易度を制御できる一般的な訓練環境を提案する。
トレーニングをタスクの難しさにシフトすることで,最終的なパフォーマンスを大幅に向上できることがわかった。
論文 参考訳(メタデータ) (2022-12-08T07:46:42Z) - Smooth Trajectory Collision Avoidance through Deep Reinforcement
Learning [0.0]
本稿では,DRLに基づくナビゲーションソリューションにおける2つの重要な問題に対処するために,エージェントの状態と報酬関数の設計を提案する。
我々のモデルは、衝突の可能性を著しく低減しつつ、UAVのスムーズな飛行を確保するために、マージンの報酬と滑らかさの制約に依存している。
論文 参考訳(メタデータ) (2022-10-12T16:27:32Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Congestion-aware Multi-agent Trajectory Prediction for Collision
Avoidance [110.63037190641414]
渋滞パターンを明示的に学習し、新しい「センス--学習--Reason--予測」フレームワークを考案する。
学習段階を2段階に分解することで、「学生」は「教師」から文脈的手がかりを学習し、衝突のない軌跡を生成する。
実験では,提案モデルが合成データセットにおいて衝突のない軌道予測を生成できることを実証する。
論文 参考訳(メタデータ) (2021-03-26T02:42:33Z) - COLREG-Compliant Collision Avoidance for Unmanned Surface Vehicle using
Deep Reinforcement Learning [0.0]
追従と衝突回避は、無人表面船や他の自動運転車にとって、ロボット工学における2つの基本的なガイダンス問題である。
本稿では,連続制御タスクにおける最先端性能を示すDRLアルゴリズムであるPPOの可能性について検討する。
ノルウェー海の入り江であるトロンドハイム・フィヨルド(Trondheim Fjord)の高忠実な標高とAIS追跡データに基づいて、我々は訓練されたエージェントのパフォーマンスを挑戦的でダイナミックな実世界のシナリオで評価した。
論文 参考訳(メタデータ) (2020-06-16T22:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。