論文の概要: Data-efficient Deep Reinforcement Learning for Vehicle Trajectory
Control
- arxiv url: http://arxiv.org/abs/2311.18393v1
- Date: Thu, 30 Nov 2023 09:38:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 17:19:22.943014
- Title: Data-efficient Deep Reinforcement Learning for Vehicle Trajectory
Control
- Title(参考訳): 車両軌道制御のためのデータ効率の高い深層強化学習
- Authors: Bernd Frauenknecht, Tobias Ehlgen and Sebastian Trimpe
- Abstract要約: 強化学習(RL)は、古典的なアプローチよりも優れた制御性能を達成することを約束する。
SAC(Soft-actor critic)のような標準RLアプローチでは、大量のトレーニングデータを収集する必要がある。
近年開発されたディープRL法を車両軌道制御に適用した。
- 参考スコア(独自算出の注目度): 6.144517901919656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced vehicle control is a fundamental building block in the development
of autonomous driving systems. Reinforcement learning (RL) promises to achieve
control performance superior to classical approaches while keeping
computational demands low during deployment. However, standard RL approaches
like soft-actor critic (SAC) require extensive amounts of training data to be
collected and are thus impractical for real-world application. To address this
issue, we apply recently developed data-efficient deep RL methods to vehicle
trajectory control. Our investigation focuses on three methods, so far
unexplored for vehicle control: randomized ensemble double Q-learning (REDQ),
probabilistic ensembles with trajectory sampling and model predictive path
integral optimizer (PETS-MPPI), and model-based policy optimization (MBPO). We
find that in the case of trajectory control, the standard model-based RL
formulation used in approaches like PETS-MPPI and MBPO is not suitable. We,
therefore, propose a new formulation that splits dynamics prediction and
vehicle localization. Our benchmark study on the CARLA simulator reveals that
the three identified data-efficient deep RL approaches learn control strategies
on a par with or better than SAC, yet reduce the required number of environment
interactions by more than one order of magnitude.
- Abstract(参考訳): 高度な車両制御は、自律運転システムの開発における基本的な構成要素である。
強化学習(Reinforcement Learning, RL)は、従来のアプローチよりも優れた制御性能を実現すると同時に、デプロイメント時の計算要求を低くする。
しかし、Soft-actor critic (SAC)のような標準的なRLアプローチでは、大量のトレーニングデータを収集する必要があるため、現実のアプリケーションでは実用的ではない。
この問題に対処するために,最近開発されたデータ効率の高い深層rl法を車両軌道制御に適用した。
本研究は,車両制御のための3つの手法,ランダム化アンサンブルダブルQ学習(REDQ),軌道サンプリングとモデル予測経路積分最適化器(PETS-MPPI)を用いた確率的アンサンブル,モデルベースポリシー最適化(MBPO)に焦点を当てた。
軌道制御の場合,PETS-MPPIやMBPOのようなアプローチで使用される標準モデルベースRLの定式化は適切ではない。
そこで我々は,ダイナミックス予測と車両位置推定を分割する新しい定式化を提案する。
CARLAシミュレータのベンチマーク研究により,3つの同定された深部RLアプローチは,SACと同等以上の制御戦略を学習するが,必要な環境相互作用数を1桁以上削減することがわかった。
関連論文リスト
- Modelling, Positioning, and Deep Reinforcement Learning Path Tracking
Control of Scaled Robotic Vehicles: Design and Experimental Validation [3.807917169053206]
スケールされたロボットカーは通常、車両の状態の推定と制御に特化したタスクを含む階層的な制御機構を備えている。
本稿では, (i) フェデレートされた拡張カルマンフィルタ (FEKF) と (ii) エキスパートデモレータを用いて訓練された新しい深部強化学習 (DRL) パストラッキングコントローラを提案する。
実験により検証されたモデルは、(i)FEKFの設計を支援するために使用され、(ii)DRLに基づく経路追跡アルゴリズムをトレーニングするためのデジタルツインとして機能する。
論文 参考訳(メタデータ) (2024-01-10T14:40:53Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Action and Trajectory Planning for Urban Autonomous Driving with
Hierarchical Reinforcement Learning [1.3397650653650457]
本稿では,階層型強化学習法(atHRL)を用いた行動・軌道プランナを提案する。
我々は、複雑な都市運転シナリオにおける広範な実験を通して、atHRLの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-28T07:11:02Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - A reinforcement learning path planning approach for range-only
underwater target localization with autonomous vehicles [0.0]
ROSBターゲットローカライゼーション法では, 目標位置の最適精度を得るためには, 目標位置付近の追尾車の軌道が重要な役割を果たす。
そこで本研究では,自動運転車が追従すべき最適経路を見つけるための強化学習(RL)手法について検討し,予測対象の局所化の全体的な精度を向上し,最適化する。
論文 参考訳(メタデータ) (2023-01-17T13:16:16Z) - Unified Automatic Control of Vehicular Systems with Reinforcement
Learning [64.63619662693068]
本稿では,車載マイクロシミュレーションの合理化手法について述べる。
最小限の手動設計で高性能な制御戦略を発見する。
この研究は、波動緩和、交通信号、ランプ計測に類似した多くの創発的挙動を明らかにしている。
論文 参考訳(メタデータ) (2022-07-30T16:23:45Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Safe Model-based Off-policy Reinforcement Learning for Eco-Driving in
Connected and Automated Hybrid Electric Vehicles [3.5259944260228977]
本研究は,エコドライブ問題に対するセーフオフポジーモデルに基づく強化学習アルゴリズムを提案する。
提案アルゴリズムは, モデルフリーエージェントと比較して, 平均速度が高く, 燃費も良好である。
論文 参考訳(メタデータ) (2021-05-25T03:41:29Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。