論文の概要: Two-step dynamic obstacle avoidance
- arxiv url: http://arxiv.org/abs/2311.16841v2
- Date: Mon, 19 Aug 2024 08:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 04:07:00.034528
- Title: Two-step dynamic obstacle avoidance
- Title(参考訳): 2段階動的障害物回避
- Authors: Fabian Hart, Martin Waltz, Ostap Okhrin,
- Abstract要約: 本稿では、教師付きおよび強化学習(RL)を組み合わせることにより、動的障害物回避(DOA)タスクを扱うための2段階アーキテクチャを提案する。
最初のステップでは、リカレントニューラルネットワークを用いて障害物の衝突リスク(CR)を推定するデータ駆動アプローチを導入する。
第2ステップでは、これらのCR推定値をRLエージェントの観察空間に含め、その状況意識を高める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic obstacle avoidance (DOA) is a fundamental challenge for any autonomous vehicle, independent of whether it operates in sea, air, or land. This paper proposes a two-step architecture for handling DOA tasks by combining supervised and reinforcement learning (RL). In the first step, we introduce a data-driven approach to estimate the collision risk (CR) of an obstacle using a recurrent neural network, which is trained in a supervised fashion and offers robustness to non-linear obstacle movements. In the second step, we include these CR estimates into the observation space of an RL agent to increase its situational awareness. We illustrate the power of our two-step approach by training different RL agents in a challenging environment that requires to navigate amid multiple obstacles. The non-linear movements of obstacles are exemplarily modeled based on stochastic processes and periodic patterns, although our architecture is suitable for any obstacle dynamics. The experiments reveal that integrating our CR metrics into the observation space doubles the performance in terms of reward, which is equivalent to halving the number of collisions in the considered environment. We also perform a generalization experiment to validate the proposal in an RL environment based on maritime traffic and real-world vessel trajectory data. Furthermore, we show that the architecture's performance improvement is independent of the applied RL algorithm.
- Abstract(参考訳): ダイナミック障害物回避(ダイナミック障害物回避、Dynamic obstacle avoidance、DOA)は、海、空気、陸地で運用されているかどうかに関わらず、あらゆる自動運転車にとって基本的な課題である。
本稿では、教師付きおよび強化学習(RL)を組み合わせた2段階のDOAタスク処理アーキテクチャを提案する。
最初のステップでは、リカレントニューラルネットワークを用いて障害物の衝突リスク(CR)を推定するデータ駆動型アプローチを導入する。
第2ステップでは、これらのCR推定値をRLエージェントの観察空間に含め、その状況意識を高める。
複数の障害物の中で移動する必要のある困難な環境で、異なるRLエージェントを訓練することで、2段階のアプローチのパワーを説明する。
障害物の非線形運動は確率過程と周期パターンに基づいて例示的にモデル化されるが,我々のアーキテクチャは任意の障害物力学に適している。
実験の結果、観測空間にCRメトリクスを組み込むことで、考慮された環境における衝突回数の半分に相当する報酬の2倍のパフォーマンスが得られることがわかった。
また,海上交通と実世界の船舶軌道データに基づいて,RL環境における提案手法の検証を行う。
さらに,アーキテクチャの性能改善は適用されたRLアルゴリズムとは無関係であることを示す。
関連論文リスト
- Model-Based Reinforcement Learning for Control of Strongly-Disturbed Unsteady Aerodynamic Flows [0.0]
本稿では,モデルに基づく強化学習(MBRL)手法を提案する。
モデルの堅牢性と一般化性は、2つの異なる流れ環境で実証される。
そこで本研究では,低次環境下で学んだ政策が,フルCFD環境における効果的な制御戦略に変換されることを実証する。
論文 参考訳(メタデータ) (2024-08-26T23:21:44Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Variational Autoencoders for exteroceptive perception in reinforcement learning-based collision avoidance [0.0]
Deep Reinforcement Learning (DRL) は有望な制御フレームワークとして登場した。
現在のDRLアルゴリズムは、ほぼ最適ポリシーを見つけるために不均等な計算資源を必要とする。
本稿では,海洋制御システムにおける提案手法の総合的な探索について述べる。
論文 参考訳(メタデータ) (2024-03-31T09:25:28Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - Continuous Trajectory Generation Based on Two-Stage GAN [50.55181727145379]
本稿では,道路網上の連続軌道を生成するために,新たな2段階生成対向フレームワークを提案する。
具体的には、A*アルゴリズムの人間の移動性仮説に基づいてジェネレータを構築し、人間の移動性について学習する。
判別器では, 逐次報酬と移動ヤウ報酬を組み合わせることで, 発電機の有効性を高める。
論文 参考訳(メタデータ) (2023-01-16T09:54:02Z) - Smooth Trajectory Collision Avoidance through Deep Reinforcement
Learning [0.0]
本稿では,DRLに基づくナビゲーションソリューションにおける2つの重要な問題に対処するために,エージェントの状態と報酬関数の設計を提案する。
我々のモデルは、衝突の可能性を著しく低減しつつ、UAVのスムーズな飛行を確保するために、マージンの報酬と滑らかさの制約に依存している。
論文 参考訳(メタデータ) (2022-10-12T16:27:32Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - COLREG-Compliant Collision Avoidance for Unmanned Surface Vehicle using
Deep Reinforcement Learning [0.0]
追従と衝突回避は、無人表面船や他の自動運転車にとって、ロボット工学における2つの基本的なガイダンス問題である。
本稿では,連続制御タスクにおける最先端性能を示すDRLアルゴリズムであるPPOの可能性について検討する。
ノルウェー海の入り江であるトロンドハイム・フィヨルド(Trondheim Fjord)の高忠実な標高とAIS追跡データに基づいて、我々は訓練されたエージェントのパフォーマンスを挑戦的でダイナミックな実世界のシナリオで評価した。
論文 参考訳(メタデータ) (2020-06-16T22:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。