論文の概要: DRARL: Disengagement-Reason-Augmented Reinforcement Learning for Efficient Improvement of Autonomous Driving Policy
- arxiv url: http://arxiv.org/abs/2506.16720v1
- Date: Fri, 20 Jun 2025 03:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 14:54:00.401727
- Title: DRARL: Disengagement-Reason-Augmented Reinforcement Learning for Efficient Improvement of Autonomous Driving Policy
- Title(参考訳): DRARL:自律運転政策の効率化のための強化強化学習
- Authors: Weitao Zhou, Bo Zhang, Zhong Cao, Xiang Li, Qian Cheng, Chunyang Liu, Yaqin Zhang, Diange Yang,
- Abstract要約: disengagement-reason-augmented reinforcement learning (DRARL)は、運転ポリシーの改善プロセスを強化する。
本手法は,自律走行ロボットによって収集された実世界の解離事例を用いて評価する。
- 参考スコア(独自算出の注目度): 24.36567420971839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing presence of automated vehicles on open roads under driver supervision, disengagement cases are becoming more prevalent. While some data-driven planning systems attempt to directly utilize these disengagement cases for policy improvement, the inherent scarcity of disengagement data (often occurring as a single instances) restricts training effectiveness. Furthermore, some disengagement data should be excluded since the disengagement may not always come from the failure of driving policies, e.g. the driver may casually intervene for a while. To this end, this work proposes disengagement-reason-augmented reinforcement learning (DRARL), which enhances driving policy improvement process according to the reason of disengagement cases. Specifically, the reason of disengagement is identified by a out-of-distribution (OOD) state estimation model. When the reason doesn't exist, the case will be identified as a casual disengagement case, which doesn't require additional policy adjustment. Otherwise, the policy can be updated under a reason-augmented imagination environment, improving the policy performance of disengagement cases with similar reasons. The method is evaluated using real-world disengagement cases collected by autonomous driving robotaxi. Experimental results demonstrate that the method accurately identifies policy-related disengagement reasons, allowing the agent to handle both original and semantically similar cases through reason-augmented training. Furthermore, the approach prevents the agent from becoming overly conservative after policy adjustments. Overall, this work provides an efficient way to improve driving policy performance with disengagement cases.
- Abstract(参考訳): 運転監督下の公道での自動走行車の存在が増大するにつれ、解禁ケースがより広まりつつある。
一部のデータ駆動型プランニングシステムは、これらの解禁ケースを直接利用して政策改善を図っているが、解禁データ(多くの場合、単一のインスタンスとして発生する)の固有の不足は、トレーニングの有効性を制限している。
さらに、一部の解離データは、解離が必ずしも運転ポリシーの失敗から来るとは限らないため除外されるべきである。
そこで本研究では, 統合型強化学習(DRARL)を提案する。
具体的には, アウト・オブ・ディストリビューション(OOD)状態推定モデルにより, 解離の原因を同定する。
理由がない場合、このケースは、追加のポリシー調整を必要としないカジュアルな解除ケースとして特定される。
さもないと、このポリシーは、理由強化された想像環境の下で更新され、同様の理由で、解禁事件の政策性能が向上する。
本手法は,自律走行ロボットによって収集された実世界の解離事例を用いて評価する。
実験結果から,本手法は政策関連解離理由を正確に同定し,原語および意味論的に類似した事例を理由強化訓練により処理できることが示唆された。
さらに、政策調整後、エージェントが過度に保守的になるのを防ぐ。
全体として、この研究は、解禁事例を伴って、運転ポリシー性能を改善する効率的な方法を提供する。
関連論文リスト
- RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - PeRP: Personalized Residual Policies For Congestion Mitigation Through
Co-operative Advisory Systems [12.010221998198423]
Piecewise Constant (PC) Policiesは、交通渋滞を軽減するために、人間の運転の類似性を構造的にモデル化することで問題に対処する。
我々はPersonalized Residual Policy, PeRPを用いたPCポリシに基づく協調アドバイザリシステムの開発を行った。
提案手法は,運転者の行動に適応しながら,渋滞を軽減し,ベースラインよりも平均速度が4~22%向上したことを示す。
論文 参考訳(メタデータ) (2023-08-01T22:25:40Z) - Robust Driving Policy Learning with Guided Meta Reinforcement Learning [49.860391298275616]
本稿では,ソーシャルカーの多種多様な運転方針を一つのメタ政治として訓練する効率的な方法を提案する。
ソーシャルカーのインタラクションに基づく報酬関数をランダム化することにより、多様な目的を生み出し、メタ政治を効率的に訓練することができる。
本研究では,社会自動車が学習メタ政治によって制御される環境を利用して,エゴ自動車の運転方針の堅牢性を高めるためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-19T17:42:36Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Carl-Lead: Lidar-based End-to-End Autonomous Driving with Contrastive
Deep Reinforcement Learning [10.040113551761792]
我々は、ライダーに基づくエンドツーエンドの運転ポリシーのトレーニングに、深層強化学習(DRL)を使用します。
本研究では、DRLを用いて、不完全な部分観察を自然に考慮するライダーベースのエンドツーエンド駆動ポリシーを訓練する。
提案手法は,最新技術(SOTA)によるエンド・ツー・エンド駆動ネットワークよりも高い成功率を達成する。
論文 参考訳(メタデータ) (2021-09-17T11:24:10Z) - Reinforcement Learning based Control of Imitative Policies for
Near-Accident Driving [41.54021613421446]
事故に近いシナリオでは、車両の動作の微妙な変化でさえ、劇的に異なる結果をもたらす可能性がある。
本稿では、ILが個別駆動モードで学んだ低レベルポリシーと、異なる駆動モード間で切り替えるRLで学んだ高レベルポリシーからなる階層的強化と模倣学習(H-ReIL)アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-01T01:41:45Z) - Counterfactual Policy Evaluation for Decision-Making in Autonomous
Driving [3.1410342959104725]
強化や模倣学習のような学習に基づくアプローチは、自動運転のための意思決定において人気を集めている。
本研究では, 対実的世界を活用した対実的政策評価を導入する。
提案手法は高い成功率を維持しながら衝突速度を著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-03-20T10:02:30Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。