論文の概要: Multi-Timescale Hierarchical Reinforcement Learning for Unified Behavior and Control of Autonomous Driving
- arxiv url: http://arxiv.org/abs/2506.23771v1
- Date: Mon, 30 Jun 2025 12:17:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.043415
- Title: Multi-Timescale Hierarchical Reinforcement Learning for Unified Behavior and Control of Autonomous Driving
- Title(参考訳): 自律運転の統一行動と制御のためのマルチタイム階層型階層強化学習
- Authors: Guizhe Jin, Zhuoren Li, Bo Leng, Ran Yu, Lu Xiong,
- Abstract要約: 自律運転のための多段階階層型強化学習手法を提案する。
高レベルかつ低レベルなRLポリシーは、長期動作誘導と短時間制御コマンドを生成するために統一的に訓練される。
提案手法はAD性能を大幅に向上させ,運転効率,動作の整合性,安全性を効果的に向上させる。
- 参考スコア(独自算出の注目度): 4.750705843012836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) is increasingly used in autonomous driving (AD) and shows clear advantages. However, most RL-based AD methods overlook policy structure design. An RL policy that only outputs short-timescale vehicle control commands results in fluctuating driving behavior due to fluctuations in network outputs, while one that only outputs long-timescale driving goals cannot achieve unified optimality of driving behavior and control. Therefore, we propose a multi-timescale hierarchical reinforcement learning approach. Our approach adopts a hierarchical policy structure, where high- and low-level RL policies are unified-trained to produce long-timescale motion guidance and short-timescale control commands, respectively. Therein, motion guidance is explicitly represented by hybrid actions to capture multimodal driving behaviors on structured road and support incremental low-level extend-state updates. Additionally, a hierarchical safety mechanism is designed to ensure multi-timescale safety. Evaluation in simulator-based and HighD dataset-based highway multi-lane scenarios demonstrates that our approach significantly improves AD performance, effectively increasing driving efficiency, action consistency and safety.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、自律運転(AD)においてますます使われており、明確な利点を示している。
しかし、ほとんどのRLベースのADメソッドはポリシー構造設計を見落としている。
短時間の車両制御コマンドのみを出力するRLポリシーは、ネットワーク出力の変動による運転動作の変動をもたらすが、長時間の運転目標のみを出力するRLポリシーは、運転行動と制御の統一的な最適性を達成することはできない。
そこで本稿では,マルチ時間階層型強化学習手法を提案する。
提案手法では,高レベルのRLポリシーと低レベルのRLポリシーを一体化して,長期動作誘導と短時間制御コマンドを生成する階層的ポリシー構造を採用する。
これにより、移動誘導は、構造化道路上でのマルチモーダル運転動作を捕捉し、段階的な低レベル拡張状態更新をサポートするハイブリッド動作によって明確に表現される。
さらに、階層的な安全機構は、マルチスケール安全性を保証するように設計されている。
シミュレータベースおよび高次元データセットに基づくハイウェイマルチレーンシナリオの評価は,本手法がAD性能を大幅に向上し,運転効率,動作一貫性,安全性を効果的に向上することを示す。
関連論文リスト
- TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - Hybrid Action Based Reinforcement Learning for Multi-Objective Compatible Autonomous Driving [9.39122455540358]
強化学習(Reinforcement Learning, RL)は, 自律運転における意思決定と制御の問題を解く上で, 優れた性能を示した。
ドライビングは多属性問題であり、現在のRL法における多目的互換性を実現する上での課題となっている。
マルチオブジェクト対応自律運転のためのハイブリッドパラメタライズアクションを用いた多目的アンサンブル・クリティカル強化学習法を提案する。
論文 参考訳(メタデータ) (2025-01-14T13:10:13Z) - From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。
複雑な動的トラフィックシナリオを処理できる。
CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - AD-H: Autonomous Driving with Hierarchical Agents [64.49185157446297]
我々は,ハイレベル命令と低レベル制御信号を中間言語駆動の命令に接続することを提案する。
我々は、AD-Hという階層型マルチエージェント駆動システムを用いて、このアイデアを実装した。
論文 参考訳(メタデータ) (2024-06-05T17:25:46Z) - Generalizing Cooperative Eco-driving via Multi-residual Task Learning [6.864745785996583]
MRTL(Multi-Residual Task Learning)はマルチタスク学習に基づく汎用的な学習フレームワークである。
MRTLは制御を従来の制御法と残留項によって効果的に解決される名目成分に分解する。
我々は、システム制御の手段として自律走行車を用いた混合交通における艦隊レベルの排出削減にMRTLを使用している。
論文 参考訳(メタデータ) (2024-03-07T05:25:34Z) - Bi-Level Optimization Augmented with Conditional Variational Autoencoder
for Autonomous Driving in Dense Traffic [0.9281671380673306]
本稿では、最適行動決定と結果の軌跡を共同で計算するパラメータ化バイレベル最適化を提案する。
当社のアプローチは,GPUアクセラレーションバッチを使用してリアルタイムに動作し,変分オートエンコーダがウォームスタート戦略を学習する。
本手法は, 運転効率の競争力に優れながら, 衝突速度の観点から, 最先端モデル予測制御とRLアプローチより優れる。
論文 参考訳(メタデータ) (2022-12-05T12:56:42Z) - Unified Automatic Control of Vehicular Systems with Reinforcement
Learning [64.63619662693068]
本稿では,車載マイクロシミュレーションの合理化手法について述べる。
最小限の手動設計で高性能な制御戦略を発見する。
この研究は、波動緩和、交通信号、ランプ計測に類似した多くの創発的挙動を明らかにしている。
論文 参考訳(メタデータ) (2022-07-30T16:23:45Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。