論文の概要: Data-efficient Deep Reinforcement Learning for Vehicle Trajectory
Control
- arxiv url: http://arxiv.org/abs/2311.18393v1
- Date: Thu, 30 Nov 2023 09:38:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 17:19:22.943014
- Title: Data-efficient Deep Reinforcement Learning for Vehicle Trajectory
Control
- Title(参考訳): 車両軌道制御のためのデータ効率の高い深層強化学習
- Authors: Bernd Frauenknecht, Tobias Ehlgen and Sebastian Trimpe
- Abstract要約: 強化学習(RL)は、古典的なアプローチよりも優れた制御性能を達成することを約束する。
SAC(Soft-actor critic)のような標準RLアプローチでは、大量のトレーニングデータを収集する必要がある。
近年開発されたディープRL法を車両軌道制御に適用した。
- 参考スコア(独自算出の注目度): 6.144517901919656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced vehicle control is a fundamental building block in the development
of autonomous driving systems. Reinforcement learning (RL) promises to achieve
control performance superior to classical approaches while keeping
computational demands low during deployment. However, standard RL approaches
like soft-actor critic (SAC) require extensive amounts of training data to be
collected and are thus impractical for real-world application. To address this
issue, we apply recently developed data-efficient deep RL methods to vehicle
trajectory control. Our investigation focuses on three methods, so far
unexplored for vehicle control: randomized ensemble double Q-learning (REDQ),
probabilistic ensembles with trajectory sampling and model predictive path
integral optimizer (PETS-MPPI), and model-based policy optimization (MBPO). We
find that in the case of trajectory control, the standard model-based RL
formulation used in approaches like PETS-MPPI and MBPO is not suitable. We,
therefore, propose a new formulation that splits dynamics prediction and
vehicle localization. Our benchmark study on the CARLA simulator reveals that
the three identified data-efficient deep RL approaches learn control strategies
on a par with or better than SAC, yet reduce the required number of environment
interactions by more than one order of magnitude.
- Abstract(参考訳): 高度な車両制御は、自律運転システムの開発における基本的な構成要素である。
強化学習(Reinforcement Learning, RL)は、従来のアプローチよりも優れた制御性能を実現すると同時に、デプロイメント時の計算要求を低くする。
しかし、Soft-actor critic (SAC)のような標準的なRLアプローチでは、大量のトレーニングデータを収集する必要があるため、現実のアプリケーションでは実用的ではない。
この問題に対処するために,最近開発されたデータ効率の高い深層rl法を車両軌道制御に適用した。
本研究は,車両制御のための3つの手法,ランダム化アンサンブルダブルQ学習(REDQ),軌道サンプリングとモデル予測経路積分最適化器(PETS-MPPI)を用いた確率的アンサンブル,モデルベースポリシー最適化(MBPO)に焦点を当てた。
軌道制御の場合,PETS-MPPIやMBPOのようなアプローチで使用される標準モデルベースRLの定式化は適切ではない。
そこで我々は,ダイナミックス予測と車両位置推定を分割する新しい定式化を提案する。
CARLAシミュレータのベンチマーク研究により,3つの同定された深部RLアプローチは,SACと同等以上の制御戦略を学習するが,必要な環境相互作用数を1桁以上削減することがわかった。
関連論文リスト
- Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control [1.5361702135159845]
本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。
交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。
本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:16:57Z) - Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - Modelling, Positioning, and Deep Reinforcement Learning Path Tracking
Control of Scaled Robotic Vehicles: Design and Experimental Validation [3.807917169053206]
スケールされたロボットカーは通常、車両の状態の推定と制御に特化したタスクを含む階層的な制御機構を備えている。
本稿では, (i) フェデレートされた拡張カルマンフィルタ (FEKF) と (ii) エキスパートデモレータを用いて訓練された新しい深部強化学習 (DRL) パストラッキングコントローラを提案する。
実験により検証されたモデルは、(i)FEKFの設計を支援するために使用され、(ii)DRLに基づく経路追跡アルゴリズムをトレーニングするためのデジタルツインとして機能する。
論文 参考訳(メタデータ) (2024-01-10T14:40:53Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Unified Automatic Control of Vehicular Systems with Reinforcement
Learning [64.63619662693068]
本稿では,車載マイクロシミュレーションの合理化手法について述べる。
最小限の手動設計で高性能な制御戦略を発見する。
この研究は、波動緩和、交通信号、ランプ計測に類似した多くの創発的挙動を明らかにしている。
論文 参考訳(メタデータ) (2022-07-30T16:23:45Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Safe Model-based Off-policy Reinforcement Learning for Eco-Driving in
Connected and Automated Hybrid Electric Vehicles [3.5259944260228977]
本研究は,エコドライブ問題に対するセーフオフポジーモデルに基づく強化学習アルゴリズムを提案する。
提案アルゴリズムは, モデルフリーエージェントと比較して, 平均速度が高く, 燃費も良好である。
論文 参考訳(メタデータ) (2021-05-25T03:41:29Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。