論文の概要: Two-step dynamic obstacle avoidance
- arxiv url: http://arxiv.org/abs/2311.16841v1
- Date: Tue, 28 Nov 2023 14:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 18:06:24.826368
- Title: Two-step dynamic obstacle avoidance
- Title(参考訳): 2段階動的障害物回避
- Authors: Fabian Hart, Martin Waltz, Ostap Okhrin
- Abstract要約: 本稿では,教師付き学習と強化学習を組み合わせた動的障害物回避タスクのための2段階アーキテクチャを提案する。
最初のステップでは、リカレントニューラルネットワークを用いて障害物の衝突リスクを推定するためのデータ駆動型アプローチを導入する。
第2ステップでは、これらの衝突リスク推定値をRLエージェントの観察空間に含め、その状況意識を高める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic obstacle avoidance (DOA) is a fundamental challenge for any
autonomous vehicle, independent of whether it operates in sea, air, or land.
This paper proposes a two-step architecture for handling DOA tasks by combining
supervised and reinforcement learning (RL). In the first step, we introduce a
data-driven approach to estimate the collision risk of an obstacle using a
recurrent neural network, which is trained in a supervised fashion and offers
robustness to non-linear obstacle movements. In the second step, we include
these collision risk estimates into the observation space of an RL agent to
increase its situational awareness.~We illustrate the power of our two-step
approach by training different RL agents in a challenging environment that
requires to navigate amid multiple obstacles. The non-linear movements of
obstacles are exemplarily modeled based on stochastic processes and periodic
patterns, although our architecture is suitable for any obstacle dynamics. The
experiments reveal that integrating our collision risk metrics into the
observation space doubles the performance in terms of reward, which is
equivalent to halving the number of collisions in the considered environment.
Furthermore, we show that the architecture's performance improvement is
independent of the applied RL algorithm.
- Abstract(参考訳): ダイナミック障害物回避(dynamic obstacle avoidance, doa)は、海、空、陸のいずれにおいても、自律走行車にとって基本的な課題である。
本稿では、教師付きおよび強化学習(RL)を組み合わせた2段階のDOAタスク処理アーキテクチャを提案する。
最初のステップでは、リカレントニューラルネットワークを用いて障害物の衝突リスクを推定するデータ駆動型アプローチを導入し、教師付き方式でトレーニングし、非線形障害物運動に対して堅牢性を提供する。
第2ステップでは、これらの衝突リスク推定値をRLエージェントの観察空間に含め、その状況意識を高める。
~我々は,複数の障害の中をナビゲートする必要のある困難な環境で,異なるrlエージェントをトレーニングすることで,二段階のアプローチのパワーを示す。
障害物の非線形運動は確率過程と周期パターンに基づいて例示的にモデル化されるが,我々のアーキテクチャは任意の障害物力学に適している。
実験の結果, 衝突リスク指標を観測空間に組み込むことで, 評価環境における衝突回数の半減に相当する報奨効果が2倍になることがわかった。
さらに,アーキテクチャの性能改善は適用されたRLアルゴリズムとは無関係であることを示す。
関連論文リスト
- Model-Based Reinforcement Learning for Control of Strongly-Disturbed Unsteady Aerodynamic Flows [0.0]
本稿では,モデルに基づく強化学習(MBRL)手法を提案する。
モデルの堅牢性と一般化性は、2つの異なる流れ環境で実証される。
そこで本研究では,低次環境下で学んだ政策が,フルCFD環境における効果的な制御戦略に変換されることを実証する。
論文 参考訳(メタデータ) (2024-08-26T23:21:44Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Variational Autoencoders for exteroceptive perception in reinforcement learning-based collision avoidance [0.0]
Deep Reinforcement Learning (DRL) は有望な制御フレームワークとして登場した。
現在のDRLアルゴリズムは、ほぼ最適ポリシーを見つけるために不均等な計算資源を必要とする。
本稿では,海洋制御システムにおける提案手法の総合的な探索について述べる。
論文 参考訳(メタデータ) (2024-03-31T09:25:28Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - Continuous Trajectory Generation Based on Two-Stage GAN [50.55181727145379]
本稿では,道路網上の連続軌道を生成するために,新たな2段階生成対向フレームワークを提案する。
具体的には、A*アルゴリズムの人間の移動性仮説に基づいてジェネレータを構築し、人間の移動性について学習する。
判別器では, 逐次報酬と移動ヤウ報酬を組み合わせることで, 発電機の有効性を高める。
論文 参考訳(メタデータ) (2023-01-16T09:54:02Z) - Smooth Trajectory Collision Avoidance through Deep Reinforcement
Learning [0.0]
本稿では,DRLに基づくナビゲーションソリューションにおける2つの重要な問題に対処するために,エージェントの状態と報酬関数の設計を提案する。
我々のモデルは、衝突の可能性を著しく低減しつつ、UAVのスムーズな飛行を確保するために、マージンの報酬と滑らかさの制約に依存している。
論文 参考訳(メタデータ) (2022-10-12T16:27:32Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - COLREG-Compliant Collision Avoidance for Unmanned Surface Vehicle using
Deep Reinforcement Learning [0.0]
追従と衝突回避は、無人表面船や他の自動運転車にとって、ロボット工学における2つの基本的なガイダンス問題である。
本稿では,連続制御タスクにおける最先端性能を示すDRLアルゴリズムであるPPOの可能性について検討する。
ノルウェー海の入り江であるトロンドハイム・フィヨルド(Trondheim Fjord)の高忠実な標高とAIS追跡データに基づいて、我々は訓練されたエージェントのパフォーマンスを挑戦的でダイナミックな実世界のシナリオで評価した。
論文 参考訳(メタデータ) (2020-06-16T22:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。