論文の概要: Hybrid Car-Following Strategy based on Deep Deterministic Policy
Gradient and Cooperative Adaptive Cruise Control
- arxiv url: http://arxiv.org/abs/2103.03796v1
- Date: Wed, 24 Feb 2021 17:37:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 00:50:46.885649
- Title: Hybrid Car-Following Strategy based on Deep Deterministic Policy
Gradient and Cooperative Adaptive Cruise Control
- Title(参考訳): Deep Deterministic Policy GradientとCooperative Adaptive Cruise Controlに基づくハイブリッドカー追従戦略
- Authors: Ruidong Yan, Rui Jiang, Bin Jia, Diange Yang, and Jin Huang
- Abstract要約: 深度決定論的政策勾配(DDPG)と協調適応巡航制御(CACC)に基づくハイブリッドカーフォロー戦略を提案する。
提案手法は,CACCによる車追従の基本的な性能を保証するとともに,DDPGによる複雑な環境探索の利点をフル活用する。
- 参考スコア(独自算出の注目度): 7.016756906859412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep deterministic policy gradient (DDPG) based car-following strategy can
break through the constraints of the differential equation model due to the
ability of exploration on complex environments. However, the car-following
performance of DDPG is usually degraded by unreasonable reward function design,
insufficient training and low sampling efficiency. In order to solve this kind
of problem, a hybrid car-following strategy based on DDPG and cooperative
adaptive cruise control (CACC) is proposed. Firstly, the car-following process
is modeled as markov decision process to calculate CACC and DDPG simultaneously
at each frame. Given a current state, two actions are obtained from CACC and
DDPG, respectively. Then an optimal action, corresponding to the one offering a
larger reward, is chosen as the output of the hybrid strategy. Meanwhile, a
rule is designed to ensure that the change rate of acceleration is smaller than
the desired value. Therefore, the proposed strategy not only guarantees the
basic performance of car-following through CACC, but also makes full use of the
advantages of exploration on complex environments via DDPG. Finally, simulation
results show that the car-following performance of proposed strategy is
improved significantly as compared with that of DDPG and CACC in the whole
state space.
- Abstract(参考訳): DDPG(Deep Deterministic Policy gradient)に基づく自動車追従戦略は、複雑な環境を探索する能力によって微分方程式モデルの制約を突破することができる。
しかし、DDPGの車追従性能は、通常、不合理な報酬関数設計、訓練不足、サンプリング効率の低下によって劣化する。
このような問題を解決するために、DDPGと協調適応クルーズ制御(CACC)に基づくハイブリッドカー追従戦略を提案する。
まず、各フレームでCACCとDDPGを同時に計算するマルコフ決定プロセスとして、車両追従処理をモデル化する。
現在の状態になると、それぞれCACCとDDPGから2つの作用が得られる。
そして、ハイブリッド戦略の出力として、より大きな報酬を提供するものに対応する最適なアクションを選択する。
一方、加速度の変化率を所望値よりも小さくするようにルールが設計されている。
したがって,提案手法はcaccによる車追従の基本性能を保証するだけでなく,ddpgによる複雑な環境への探索の利点を最大限に活用する。
最後に, シミュレーションの結果, 提案手法の車追従性能は, DDPG や CACC と比較して, 全状態空間で大幅に向上した。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Adaptive Kalman-based hybrid car following strategy using TD3 and CACC [5.052960220478617]
自律運転においては、深部強化学習と協調適応クルーズ制御(CACC)のハイブリッド戦略は、後続車の性能を著しく向上させることができる。
固定係数に基づく従来のハイブリッド戦略では、混在するトラフィックフローのシナリオに適応することが困難である。
CACC と Twin Delayed Deep Deterministic Policy Gradient (TD3) アルゴリズムに関して,適応カルマンフィルタに基づくハイブリッドカーの追従戦略を提案する。
論文 参考訳(メタデータ) (2023-12-26T10:51:46Z) - Vehicles Control: Collision Avoidance using Federated Deep Reinforcement
Learning [3.8078589880662754]
本稿では,フェデレーションディープ強化学習技術を用いた衝突回避のための車両制御に関する総合的研究について述べる。
私たちの主な目標は、旅行の遅延を最小限に抑え、安全性を優先し、データのプライバシを保護しながら、車の平均速度を高めることです。
論文 参考訳(メタデータ) (2023-08-04T14:26:19Z) - Bi-Level Optimization Augmented with Conditional Variational Autoencoder
for Autonomous Driving in Dense Traffic [0.9281671380673306]
本稿では、最適行動決定と結果の軌跡を共同で計算するパラメータ化バイレベル最適化を提案する。
当社のアプローチは,GPUアクセラレーションバッチを使用してリアルタイムに動作し,変分オートエンコーダがウォームスタート戦略を学習する。
本手法は, 運転効率の競争力に優れながら, 衝突速度の観点から, 最先端モデル予測制御とRLアプローチより優れる。
論文 参考訳(メタデータ) (2022-12-05T12:56:42Z) - Integrated Decision and Control for High-Level Automated Vehicles by
Mixed Policy Gradient and Its Experiment Verification [10.393343763237452]
本稿では,IDC(Integrated Decision and Control)に基づく自己進化型意思決定システムを提案する。
制約付き混合ポリシー勾配 (CMPG) と呼ばれるRLアルゴリズムは、IDCの駆動ポリシーを継続的に更新するために提案される。
実験結果から, モデルに基づく手法よりも運転能力の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:58:41Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Autonomous Platoon Control with Integrated Deep Reinforcement Learning
and Dynamic Programming [12.661547303266252]
小隊に複数の追従車両がある場合、安定的で効率的な車両追従ポリシーを学ぶことはより困難である。
我々は、自律型小隊制御ポリシーを学ぶために統合DRLと動的プログラミングアプローチを採用する。
本研究では,Sweepingを用いたFinite-Horizon-DDPGというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-15T13:45:47Z) - When AUC meets DRO: Optimizing Partial AUC for Deep Learning with
Non-Convex Convergence Guarantee [51.527543027813344]
単方向および二方向部分AUC(pAUC)の系統的および効率的な勾配法を提案する。
一方通行と一方通行の pAUC に対して,2つのアルゴリズムを提案し,それぞれ2つの定式化を最適化するための収束性を証明した。
論文 参考訳(メタデータ) (2022-03-01T01:59:53Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z) - Mixed Strategies for Robust Optimization of Unknown Objectives [93.8672371143881]
そこでは,不確実なパラメータの最悪の実現に対して,未知の目的関数を最適化することを目的として,ロバストな最適化問題を考察する。
我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。
GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
論文 参考訳(メタデータ) (2020-02-28T09:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。