Fugu-MT 論文翻訳(概要): Data-efficient Deep Reinforcement Learning for Vehicle Trajectory Control

論文の概要: Data-efficient Deep Reinforcement Learning for Vehicle Trajectory Control

arxiv url: http://arxiv.org/abs/2311.18393v1
Date: Thu, 30 Nov 2023 09:38:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 17:19:22.943014
Title: Data-efficient Deep Reinforcement Learning for Vehicle Trajectory Control
Title（参考訳）: 車両軌道制御のためのデータ効率の高い深層強化学習
Authors: Bernd Frauenknecht, Tobias Ehlgen and Sebastian Trimpe
Abstract要約: 強化学習(RL)は、古典的なアプローチよりも優れた制御性能を達成することを約束する。 SAC(Soft-actor critic)のような標準RLアプローチでは、大量のトレーニングデータを収集する必要がある。近年開発されたディープRL法を車両軌道制御に適用した。
参考スコア（独自算出の注目度）: 6.144517901919656
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advanced vehicle control is a fundamental building block in the development of autonomous driving systems. Reinforcement learning (RL) promises to achieve control performance superior to classical approaches while keeping computational demands low during deployment. However, standard RL approaches like soft-actor critic (SAC) require extensive amounts of training data to be collected and are thus impractical for real-world application. To address this issue, we apply recently developed data-efficient deep RL methods to vehicle trajectory control. Our investigation focuses on three methods, so far unexplored for vehicle control: randomized ensemble double Q-learning (REDQ), probabilistic ensembles with trajectory sampling and model predictive path integral optimizer (PETS-MPPI), and model-based policy optimization (MBPO). We find that in the case of trajectory control, the standard model-based RL formulation used in approaches like PETS-MPPI and MBPO is not suitable. We, therefore, propose a new formulation that splits dynamics prediction and vehicle localization. Our benchmark study on the CARLA simulator reveals that the three identified data-efficient deep RL approaches learn control strategies on a par with or better than SAC, yet reduce the required number of environment interactions by more than one order of magnitude.
Abstract（参考訳）: 高度な車両制御は、自律運転システムの開発における基本的な構成要素である。強化学習(Reinforcement Learning, RL)は、従来のアプローチよりも優れた制御性能を実現すると同時に、デプロイメント時の計算要求を低くする。しかし、Soft-actor critic (SAC)のような標準的なRLアプローチでは、大量のトレーニングデータを収集する必要があるため、現実のアプリケーションでは実用的ではない。この問題に対処するために,最近開発されたデータ効率の高い深層rl法を車両軌道制御に適用した。本研究は,車両制御のための3つの手法,ランダム化アンサンブルダブルQ学習(REDQ),軌道サンプリングとモデル予測経路積分最適化器(PETS-MPPI)を用いた確率的アンサンブル,モデルベースポリシー最適化(MBPO)に焦点を当てた。軌道制御の場合,PETS-MPPIやMBPOのようなアプローチで使用される標準モデルベースRLの定式化は適切ではない。そこで我々は,ダイナミックス予測と車両位置推定を分割する新しい定式化を提案する。 CARLAシミュレータのベンチマーク研究により,3つの同定された深部RLアプローチは,SACと同等以上の制御戦略を学習するが,必要な環境相互作用数を1桁以上削減することがわかった。

関連論文リスト

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
Deep reinforcement learning-based longitudinal control strategy for automated vehicles at signalised intersections [2.9398787168955116]
本研究では,信号交差点における深部強化学習に基づく縦方向車両制御戦略を提案する。総合的な報酬関数は、特に距離方向に基づく効率報酬に焦点を当てて定式化されている。 DDPG(Deep Deterministic Policy Gradient)とSAC(Soft-Actor Critic)という2つのDRLアルゴリズムが組み込まれている。
論文参考訳（メタデータ） (2025-05-13T18:38:42Z)
Inverse RL Scene Dynamics Learning for Nonlinear Predictive Control in Autonomous Vehicles [0.0]
本稿では,自律ナビゲーションのための深層学習に基づくScene Dynamics(DL-NMPC-SD)手法を提案する。 DL-NMPC-SDは、時間範囲センシング情報から学習したシーンダイナミクスモデルと組み合わせて、アプリオリ名車モデルを使用する。
論文参考訳（メタデータ） (2025-04-02T03:46:37Z)
Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control [1.5361702135159845]
本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
論文参考訳（メタデータ） (2024-08-30T16:16:57Z)
Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。 PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文参考訳（メタデータ） (2024-08-28T08:35:34Z)
Modelling, Positioning, and Deep Reinforcement Learning Path Tracking Control of Scaled Robotic Vehicles: Design and Experimental Validation [3.807917169053206]
スケールされたロボットカーは通常、車両の状態の推定と制御に特化したタスクを含む階層的な制御機構を備えている。本稿では, (i) フェデレートされた拡張カルマンフィルタ (FEKF) と (ii) エキスパートデモレータを用いて訓練された新しい深部強化学習 (DRL) パストラッキングコントローラを提案する。実験により検証されたモデルは、(i)FEKFの設計を支援するために使用され、(ii)DRLに基づく経路追跡アルゴリズムをトレーニングするためのデジタルツインとして機能する。
論文参考訳（メタデータ） (2024-01-10T14:40:53Z)
Data-Efficient Task Generalization via Probabilistic Model-based Meta Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文参考訳（メタデータ） (2023-11-13T18:51:57Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)
Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。 textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文参考訳（メタデータ） (2023-05-29T17:25:26Z)
Unified Automatic Control of Vehicular Systems with Reinforcement Learning [64.63619662693068]
本稿では,車載マイクロシミュレーションの合理化手法について述べる。最小限の手動設計で高性能な制御戦略を発見する。この研究は、波動緩和、交通信号、ランプ計測に類似した多くの創発的挙動を明らかにしている。
論文参考訳（メタデータ） (2022-07-30T16:23:45Z)
Policy Search for Model Predictive Control with Application to Agile Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文参考訳（メタデータ） (2021-12-07T17:39:24Z)
Safe Model-based Off-policy Reinforcement Learning for Eco-Driving in Connected and Automated Hybrid Electric Vehicles [3.5259944260228977]
本研究は,エコドライブ問題に対するセーフオフポジーモデルに基づく強化学習アルゴリズムを提案する。提案アルゴリズムは, モデルフリーエージェントと比較して, 平均速度が高く, 燃費も良好である。
論文参考訳（メタデータ） (2021-05-25T03:41:29Z)
Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文参考訳（メタデータ） (2020-02-22T10:15:53Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。