論文の概要: RLAD: Reinforcement Learning from Pixels for Autonomous Driving in Urban
Environments
- arxiv url: http://arxiv.org/abs/2305.18510v1
- Date: Mon, 29 May 2023 16:14:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 19:55:37.659132
- Title: RLAD: Reinforcement Learning from Pixels for Autonomous Driving in Urban
Environments
- Title(参考訳): rlad: 都市環境における自律運転のための画素からの強化学習
- Authors: Daniel Coelho, Miguel Oliveira, and Vitor Santos
- Abstract要約: 本稿では,都市AD領域に適用された最初のRLfP(Reinforcement Learning from Pixels)手法であるRLADを提案する。
実験の結果,RLADはNoCrashベンチマークにおいて,最先端のRLfP手法を著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 0.716879432974126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current approaches of Reinforcement Learning (RL) applied in urban Autonomous
Driving (AD) focus on decoupling the perception training from the driving
policy training. The main reason is to avoid training a convolution encoder
alongside a policy network, which is known to have issues related to sample
efficiency, degenerated feature representations, and catastrophic
self-overfitting. However, this paradigm can lead to representations of the
environment that are not aligned with the downstream task, which may result in
suboptimal performances. To address this limitation, this paper proposes RLAD,
the first Reinforcement Learning from Pixels (RLfP) method applied in the urban
AD domain. We propose several techniques to enhance the performance of an RLfP
algorithm in this domain, including: i) an image encoder that leverages both
image augmentations and Adaptive Local Signal Mixing (A-LIX) layers; ii)
WayConv1D, which is a waypoint encoder that harnesses the 2D geometrical
information of the waypoints using 1D convolutions; and iii) an auxiliary loss
to increase the significance of the traffic lights in the latent representation
of the environment. Experimental results show that RLAD significantly
outperforms all state-of-the-art RLfP methods on the NoCrash benchmark. We also
present an infraction analysis on the NoCrash-regular benchmark, which
indicates that RLAD performs better than all other methods in terms of both
collision rate and red light infractions.
- Abstract(参考訳): 都市自律運転(AD)に適用された強化学習(RL)の最近のアプローチは、運転政策訓練から知覚訓練を分離することに焦点を当てている。
主な理由は、コンボリューションエンコーダをポリシーネットワークと並行してトレーニングすることを避けることである。
しかし、このパラダイムは下流のタスクと一致しない環境の表現につながり、結果として最適でないパフォーマンスをもたらす可能性がある。
この制限に対処するために,都市AD領域に適用された最初のRLfP(Reinforcement Learning from Pixels)手法であるRLADを提案する。
本稿では,この領域におけるRLfPアルゴリズムの性能向上のためのいくつかの手法を提案する。
一 画像拡張及び適応局所信号混合(A-LIX)層の両方を利用する画像エンコーダ
ii)wayconv1dは,1次元畳み込みを用いて,ウェイポイントの2次元幾何学的情報を利用するウェイポイントエンコーダである。
三 環境の潜在表現における交通灯の意義を高めるための補助的損失
実験の結果,RLADはNoCrashベンチマークにおいて,最先端のRLfP手法を著しく上回ることがわかった。
また,nocrash-regularベンチマークの屈折解析を行い,衝突速度と赤色光屈折率の両方においてrladが他の手法よりも優れた性能を示す。
関連論文リスト
- Learning Efficient and Effective Trajectories for Differential Equation-based Image Restoration [59.744840744491945]
我々は, この手法の軌道最適化を再構築し, 復元品質と効率の両立に焦点をあてる。
本稿では,複雑な経路を適応可能なサイズで複数の管理可能なステップに合理化するためのコスト対応トラジェクトリー蒸留法を提案する。
実験では提案手法の有意な優位性を示し, 最先端手法よりも最大2.1dBのPSNR改善を実現した。
論文 参考訳(メタデータ) (2024-10-07T07:46:08Z) - An Examination of Offline-Trained Encoders in Vision-Based Deep Reinforcement Learning for Autonomous Driving [0.0]
部分観測可能なマルコフ決定過程(POMDP)における深層強化学習(DRL)の課題に関する研究
我々の研究は、オフラインで訓練されたエンコーダを用いて、自己教師付き学習を通じて大規模なビデオデータセットを活用し、一般化可能な表現を学習する。
CARLAシミュレータにおいて,BDD100Kの運転映像から得られた特徴を直接転送することで,車線追従や衝突回避を実現することができることを示す。
論文 参考訳(メタデータ) (2024-09-02T14:16:23Z) - Action and Trajectory Planning for Urban Autonomous Driving with
Hierarchical Reinforcement Learning [1.3397650653650457]
本稿では,階層型強化学習法(atHRL)を用いた行動・軌道プランナを提案する。
我々は、複雑な都市運転シナリオにおける広範な実験を通して、atHRLの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-28T07:11:02Z) - Train a Real-world Local Path Planner in One Hour via Partially
Decoupled Reinforcement Learning and Vectorized Diversity [8.068886870457561]
深層強化学習(DRL)は局所経路計画(LPP)問題の解決に有効である。
実世界におけるそのような応用は、DRLの訓練効率と一般化能力の不足により、非常に制限されている。
アクター・シャーラーラーナー(ASL)トレーニングフレームワークと移動ロボット指向シミュレータSparrowで構成されたColorというソリューションが提案されている。
論文 参考訳(メタデータ) (2023-05-07T03:39:31Z) - Reinforcement Learning Approaches for Traffic Signal Control under
Missing Data [5.896742981602458]
現実世界の都市では、センサーの欠如により交通状態の観察が欠如することがある。
本稿では, 適応制御を実現するために, トラフィック状態をインプットし, 適応制御とRLエージェントの訓練を可能にするために, 状態と報酬の両方をインプットする2つの方法を提案する。
論文 参考訳(メタデータ) (2023-04-21T03:26:33Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Real-World Image Super-Resolution by Exclusionary Dual-Learning [98.36096041099906]
実世界の画像超解像は,高品質な画像を得るための実用的な画像復元問題である。
深層学習に基づく手法は、現実世界の超解像データセットの復元に期待できる品質を実現している。
本稿では,RWSR-EDL(Real-World Image Super-Resolution by Exclusionary Dual-Learning)を提案する。
論文 参考訳(メタデータ) (2022-06-06T13:28:15Z) - A Deep Reinforcement Learning Approach for Traffic Signal Control
Optimization [14.455497228170646]
非効率な信号制御手法は、交通渋滞やエネルギー浪費などの多くの問題を引き起こす可能性がある。
本稿では,アクター・クリティカル・ポリシー・グラデーション・アルゴリズムを拡張し,マルチエージェント・ディープ・決定性ポリシー・グラデーション(MADDPG)法を提案する。
論文 参考訳(メタデータ) (2021-07-13T14:11:04Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Targeted Physical-World Attention Attack on Deep Learning Models in Road
Sign Recognition [79.50450766097686]
本稿では,現実の道路標識攻撃に対するTAA手法を提案する。
実験の結果,TAA法は攻撃成功率(約10%)を向上し,RP2法と比較して摂動損失(約4分の1)を減少させることがわかった。
論文 参考訳(メタデータ) (2020-10-09T02:31:34Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。