論文の概要: Bootstrapping Reinforcement Learning with Sub-optimal Policies for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2509.04712v1
- Date: Thu, 04 Sep 2025 23:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.429871
- Title: Bootstrapping Reinforcement Learning with Sub-optimal Policies for Autonomous Driving
- Title(参考訳): 自律運転のための準最適政策を用いたブートストラップ強化学習
- Authors: Zhihao Zhang, Chengyang Peng, Ekim Yurtsever, Keith A. Redmill,
- Abstract要約: 本稿では,高度に最適化された,あるいは専門家レベルのコントローラを必要としない実演ポリシーでRL駆動エージェントを誘導することを提案する。
我々は,ルールベースのレーン変更コントローラとソフトアクター批評家(SAC)アルゴリズムを統合し,探索と学習効率を向上させる。
提案手法は運転性能の向上を実証し,他の運転シナリオにも拡張可能である。
- 参考スコア(独自算出の注目度): 4.74407831153952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated vehicle control using reinforcement learning (RL) has attracted significant attention due to its potential to learn driving policies through environment interaction. However, RL agents often face training challenges in sample efficiency and effective exploration, making it difficult to discover an optimal driving strategy. To address these issues, we propose guiding the RL driving agent with a demonstration policy that need not be a highly optimized or expert-level controller. Specifically, we integrate a rule-based lane change controller with the Soft Actor Critic (SAC) algorithm to enhance exploration and learning efficiency. Our approach demonstrates improved driving performance and can be extended to other driving scenarios that can similarly benefit from demonstration-based guidance.
- Abstract(参考訳): 強化学習(RL)を用いた自動車両制御は,環境相互作用を通じて運転方針を学習する可能性から注目されている。
しかし、RLエージェントはサンプル効率と効率的な探索においてしばしば訓練の課題に直面し、最適な運転戦略を見つけることは困難である。
これらの問題に対処するために、高度に最適化された、あるいは専門家レベルのコントローラを必要としない、実演ポリシーでRL駆動エージェントを誘導することを提案する。
具体的には,ルールベースのレーン変更コントローラとソフトアクター批評家(SAC)アルゴリズムを統合し,探索と学習の効率化を図る。
提案手法は運転性能の向上を実証し,他の運転シナリオにも拡張可能である。
関連論文リスト
- TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - Robust Driving Policy Learning with Guided Meta Reinforcement Learning [49.860391298275616]
本稿では,ソーシャルカーの多種多様な運転方針を一つのメタ政治として訓練する効率的な方法を提案する。
ソーシャルカーのインタラクションに基づく報酬関数をランダム化することにより、多様な目的を生み出し、メタ政治を効率的に訓練することができる。
本研究では,社会自動車が学習メタ政治によって制御される環境を利用して,エゴ自動車の運転方針の堅牢性を高めるためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-19T17:42:36Z) - Comprehensive Training and Evaluation on Deep Reinforcement Learning for
Automated Driving in Various Simulated Driving Maneuvers [0.4241054493737716]
本研究では、DQN(Deep Q-networks)とTRPO(Trust Region Policy Optimization)の2つのDRLアルゴリズムの実装、評価、比較を行う。
設計されたComplexRoads環境で訓練されたモデルは、他の運転操作にうまく適応でき、全体的な性能が期待できる。
論文 参考訳(メタデータ) (2023-06-20T11:41:01Z) - Risk-Aware Reward Shaping of Reinforcement Learning Agents for
Autonomous Driving [6.613838702441967]
本稿では,自律運転におけるRLエージェントのトレーニングとテスト性能を活用するために,リスク認識型報酬形成手法について検討する。
我々は、危険運転行動の探索と罰則を奨励する追加のリフォーム報酬項を提案する。
論文 参考訳(メタデータ) (2023-06-05T20:10:36Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - Unified Automatic Control of Vehicular Systems with Reinforcement
Learning [64.63619662693068]
本稿では,車載マイクロシミュレーションの合理化手法について述べる。
最小限の手動設計で高性能な制御戦略を発見する。
この研究は、波動緩和、交通信号、ランプ計測に類似した多くの創発的挙動を明らかにしている。
論文 参考訳(メタデータ) (2022-07-30T16:23:45Z) - Decision-making for Autonomous Vehicles on Highway: Deep Reinforcement
Learning with Continuous Action Horizon [14.059728921828938]
本稿では,高速道路における連続水平決定問題に対処するために,深部強化学習(DRL)手法を用いる。
エゴ自動車両の走行目標は、衝突することなく効率的でスムーズなポリシーを実行することである。
PPO-DRLに基づく意思決定戦略は、最適性、学習効率、適応性など、複数の観点から推定される。
論文 参考訳(メタデータ) (2020-08-26T22:49:27Z) - Automated Lane Change Strategy using Proximal Policy Optimization-based
Deep Reinforcement Learning [10.909595997847443]
レーン変更操作は、一般に、特定のルーティング計画に従い、遅い車両を乗り越え、前方のマージレーンに適応するなど、ドライバによって実行される。
本研究では,近位政策最適化に基づく深層強化学習を用いた自動車線変更戦略を提案する。
訓練されたエージェントは、車線変更決定を行うためのスムーズで安全で効率的な運転ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2020-02-07T08:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。