Fugu-MT 論文翻訳(概要): Smooth Trajectory Collision Avoidance through Deep Reinforcement Learning

論文の概要: Smooth Trajectory Collision Avoidance through Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2210.06377v1
Date: Wed, 12 Oct 2022 16:27:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-13 16:07:25.551530
Title: Smooth Trajectory Collision Avoidance through Deep Reinforcement Learning
Title（参考訳）: 深部強化学習による平滑な軌道衝突回避
Authors: Sirui Song, Kirk Saunders, Ye Yue, Jundong Liu
Abstract要約: 本稿では,DRLに基づくナビゲーションソリューションにおける2つの重要な問題に対処するために,エージェントの状態と報酬関数の設計を提案する。我々のモデルは、衝突の可能性を著しく低減しつつ、UAVのスムーズな飛行を確保するために、マージンの報酬と滑らかさの制約に依存している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Collision avoidance is a crucial task in vision-guided autonomous navigation. Solutions based on deep reinforcement learning (DRL) has become increasingly popular. In this work, we proposed several novel agent state and reward function designs to tackle two critical issues in DRL-based navigation solutions: 1) smoothness of the trained flight trajectories; and 2) model generalization to handle unseen environments. Formulated under a DRL framework, our model relies on margin reward and smoothness constraints to ensure UAVs fly smoothly while greatly reducing the chance of collision. The proposed smoothness reward minimizes a combination of first-order and second-order derivatives of flight trajectories, which can also drive the points to be evenly distributed, leading to stable flight speed. To enhance the agent's capability of handling new unseen environments, two practical setups are proposed to improve the invariance of both the state and reward function when deploying in different scenes. Experiments demonstrate the effectiveness of our overall design and individual components.
Abstract（参考訳）: 衝突回避は視覚誘導自律ナビゲーションにおいて重要なタスクである。深層強化学習(DRL)に基づくソリューションが普及している。本研究では,DRLに基づくナビゲーションソリューションにおける2つの重要な問題に対処するために,エージェントの状態と報酬関数の設計を提案する。 1) 訓練飛行軌道の滑らかさ,及び 2)未熟な環境を扱うためのモデル一般化。 DRLの枠組みで定式化したモデルでは、衝突の確率を大幅に低減しつつ、UAVのスムーズな飛行を確保するために、マージンの報酬と滑らかさの制約に依存している。提案された滑らかさの報奨は、飛行軌跡の1次および2次微分の組み合わせを最小化し、ポイントを均等に分散させることで飛行速度を安定させる。新たな未知環境を扱うエージェントの能力を高めるために,異なるシーンに配置する際の状態と報酬関数の相違を改善するために,2つの実用的なセットアップを提案する。実験は、全体的な設計と個々のコンポーネントの有効性を示す。

関連論文リスト

InDRiVE: Intrinsic Disagreement based Reinforcement for Vehicle Exploration through Curiosity Driven Generalized World Model [0.0]
本稿では,InDRiVE(Intrinsic Disagreement based Reinforcement for Vehicle Exploration)をモデルベース強化学習フレームワークとして提案する。エージェントは、世界モデルのアンサンブルを訓練することにより、タスク固有のフィードバックなしで、環境の不確実性の高い領域を積極的に探索する。 InDRiVEはDreamerV2やDreamerV3に比べて高い成功率と少ない屈折率を達成している。
論文参考訳（メタデータ） (2025-03-07T16:56:00Z)
Monocular Obstacle Avoidance Based on Inverse PPO for Fixed-wing UAVs [29.207513994002202]
固定翼無人航空機(英語: Fixed-wing Unmanned Aerial Vehicles、UAV)は、低高度経済(LAE)と都市空運(UAM)のための最も一般的なプラットフォームの一つである。従来の地図や高度なセンサーに依存する古典的な障害物回避システムは、未知の低高度環境や小型UAVプラットフォームにおいて制限に直面している。本稿では,DRLに基づくUAV衝突回避システムを提案する。
論文参考訳（メタデータ） (2024-11-27T03:03:37Z)
One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文参考訳（メタデータ） (2024-05-29T22:12:52Z)
DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文参考訳（メタデータ） (2024-05-29T12:12:09Z)
Towards Deviation-Robust Agent Navigation via Perturbation-Aware Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文参考訳（メタデータ） (2024-03-09T02:34:13Z)
Two-step dynamic obstacle avoidance [0.0]
本稿では、教師付きおよび強化学習(RL)を組み合わせることにより、動的障害物回避(DOA)タスクを扱うための2段階アーキテクチャを提案する。最初のステップでは、リカレントニューラルネットワークを用いて障害物の衝突リスク(CR)を推定するデータ駆動アプローチを導入する。第2ステップでは、これらのCR推定値をRLエージェントの観察空間に含め、その状況意識を高める。
論文参考訳（メタデータ） (2023-11-28T14:55:50Z)
A Multiplicative Value Function for Safe and Efficient Reinforcement Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文参考訳（メタデータ） (2023-03-07T18:29:15Z)
Reinforcement Learning-Based Air Traffic Deconfliction [7.782300855058585]
本研究は,2機の水平分離を自動化することに焦点を当て,障害物回避問題を2次元サロゲート最適化課題として提示する。強化学習(RL)を用いて、回避ポリシーを最適化し、ダイナミクス、インタラクション、意思決定をモデル化する。提案システムは,安全要件を満たす高速かつ達成可能な回避軌道を生成する。
論文参考訳（メタデータ） (2023-01-05T00:37:20Z)
Reward Function Optimization of a Deep Reinforcement Learning Collision Avoidance System [0.0]
無人航空機システム(UAS)の普及により、航空宇宙規制当局はこれらの航空機と衝突回避システムとの相互運用性を検討するようになった。現在義務化されているTCASの制限により、連邦航空局は新たなソリューションである空中衝突回避システムX(ACAS X)の開発を委託した。本研究では,サロゲートを用いてパラメータを調整したDRL衝突回避システムの利点について検討する。
論文参考訳（メタデータ） (2022-12-01T20:20:41Z)
DL-DRL: A double-level deep reinforcement learning approach for large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文参考訳（メタデータ） (2022-08-04T04:35:53Z)
Transferable Deep Reinforcement Learning Framework for Autonomous Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文参考訳（メタデータ） (2021-05-28T08:45:37Z)
Reinforcement Learning for Low-Thrust Trajectory Design of Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。最先端アルゴリズムのオープンソース実装が採用されている。その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文参考訳（メタデータ） (2020-08-19T15:22:15Z)
COLREG-Compliant Collision Avoidance for Unmanned Surface Vehicle using Deep Reinforcement Learning [0.0]
追従と衝突回避は、無人表面船や他の自動運転車にとって、ロボット工学における2つの基本的なガイダンス問題である。本稿では,連続制御タスクにおける最先端性能を示すDRLアルゴリズムであるPPOの可能性について検討する。ノルウェー海の入り江であるトロンドハイム・フィヨルド(Trondheim Fjord)の高忠実な標高とAIS追跡データに基づいて、我々は訓練されたエージェントのパフォーマンスを挑戦的でダイナミックな実世界のシナリオで評価した。
論文参考訳（メタデータ） (2020-06-16T22:05:58Z)
Using Deep Reinforcement Learning Methods for Autonomous Vessels in 2D Environments [11.657524999491029]
本研究では,Q-Learningとニューラル表現を組み合わせた深層強化学習を用いて不安定性を回避する。当社の方法論では,Q-Learningを深く使用して,アジャイル方法論のローリングウェーブプランニングアプローチと組み合わせています。実験の結果,VVNの長距離ミッションの平均性能は55.31倍に向上した。
論文参考訳（メタデータ） (2020-03-23T12:58:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。