論文の概要: Demystifying the Physics of Deep Reinforcement Learning-Based Autonomous Vehicle Decision-Making
- arxiv url: http://arxiv.org/abs/2403.11432v2
- Date: Thu, 13 Jun 2024 15:03:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 23:25:56.734778
- Title: Demystifying the Physics of Deep Reinforcement Learning-Based Autonomous Vehicle Decision-Making
- Title(参考訳): 深部強化学習に基づく自律走行車両意思決定の物理化
- Authors: Hanxi Wan, Pei Li, Arpan Kusari,
- Abstract要約: 本稿では,ベースラインモデルとしてポリシー最適化に基づくDRLアルゴリズムを用い,オープンソースのAVシミュレーション環境にマルチヘッドアテンションフレームワークを付加する。
第1頭部の重みは隣接する車両の位置を符号化し、第2頭部は先頭車両のみに焦点を当てている。
- 参考スコア(独自算出の注目度): 6.243971093896272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of universal function approximators in the domain of reinforcement learning, the number of practical applications leveraging deep reinforcement learning (DRL) has exploded. Decision-making in autonomous vehicles (AVs) has emerged as a chief application among them, taking the sensor data or the higher-order kinematic variables as the input and providing a discrete choice or continuous control output. There has been a continuous effort to understand the black-box nature of the DRL models, but so far, there hasn't been any discussion (to the best of authors' knowledge) about how the models learn the physical process. This presents an overwhelming limitation that restricts the real-world deployment of DRL in AVs. Therefore, in this research work, we try to decode the knowledge learnt by the attention-based DRL framework about the physical process. We use a continuous proximal policy optimization-based DRL algorithm as the baseline model and add a multi-head attention framework in an open-source AV simulation environment. We provide some analytical techniques for discussing the interpretability of the trained models in terms of explainability and causality for spatial and temporal correlations. We show that the weights in the first head encode the positions of the neighboring vehicles while the second head focuses on the leader vehicle exclusively. Also, the ego vehicle's action is causally dependent on the vehicles in the target lane spatially and temporally. Through these findings, we reliably show that these techniques can help practitioners decipher the results of the DRL algorithms.
- Abstract(参考訳): 強化学習分野における普遍関数近似器の出現に伴い、深層強化学習(DRL)を活用した実用的応用が爆発的に増えている。
自律走行車(AV)の意思決定は、センサーデータや高次運動変数を入力とし、個別の選択や連続的な制御出力を提供する主要な用途として現れてきた。
DRLモデルのブラックボックスの性質を理解するための継続的な努力が続けられていますが、これまでのところ、モデルがどのように物理的なプロセスを学ぶかについての議論(著者の知る限りでは)は行われていません。
これにより、AVにおけるDRLの実際の展開を制限する、圧倒的な制限が提示される。
そこで本研究では,注意に基づくDRLフレームワークが学習した物理過程の知識をデコードしようと試みる。
本稿では,ベースラインモデルとしてポリシー最適化に基づくDRLアルゴリズムを用い,オープンソースのAVシミュレーション環境にマルチヘッドアテンションフレームワークを付加する。
本稿では, 空間的および時間的相関関係に対する説明可能性および因果性の観点から, 学習モデルの解釈可能性について議論するための解析的手法を提案する。
第1頭部の重みは隣接する車両の位置を符号化し、第2頭部は先頭車両のみに焦点を当てている。
また、エゴ車両の動作は、空間的および時間的に目標車線内の車両に因果的に依存する。
これらの結果から,DRLアルゴリズムの結果の解読に有効であることを示す。
関連論文リスト
- ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。
ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。
我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-10-28T05:29:38Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Action and Trajectory Planning for Urban Autonomous Driving with
Hierarchical Reinforcement Learning [1.3397650653650457]
本稿では,階層型強化学習法(atHRL)を用いた行動・軌道プランナを提案する。
我々は、複雑な都市運転シナリオにおける広範な実験を通して、atHRLの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-28T07:11:02Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - Formula RL: Deep Reinforcement Learning for Autonomous Racing using
Telemetry Data [4.042350304426975]
この問題を,車両のテレメトリと連続的な動作空間からなる多次元入力を用いて強化学習タスクとして構成する。
我々は,2つの実験において,Deep Deterministic Policy gradient (DDPG) の10変種をレースに投入した。
研究によると、rlでトレーニングされたモデルは、オープンソースの手作りロボットよりも高速に運転できるだけでなく、未知のトラックに一般化できる。
論文 参考訳(メタデータ) (2021-04-22T14:40:12Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Vehicular Cooperative Perception Through Action Branching and Federated
Reinforcement Learning [101.64598586454571]
強化学習に基づく車両関連、リソースブロック(RB)割り当て、協調認識メッセージ(CPM)のコンテンツ選択を可能にする新しいフレームワークが提案されている。
車両全体のトレーニングプロセスをスピードアップするために、フェデレーションRLアプローチが導入されます。
その結果、フェデレーションRLはトレーニングプロセスを改善し、非フェデレーションアプローチと同じ時間内により良いポリシーを達成できることが示された。
論文 参考訳(メタデータ) (2020-12-07T02:09:15Z) - A Comparative Analysis of Deep Reinforcement Learning-enabled Freeway
Decision-making for Automated Vehicles [2.394554182452767]
人工知能の課題に対処するための強力な方法論として、深層強化学習(DRL)が登場している。
本稿では高速道路における自律走行車による意思決定問題に対するDRLアプローチについて比較する。
これらのDRL対応意思決定戦略の制御性能を評価するために,一連のシミュレーション実験を行った。
論文 参考訳(メタデータ) (2020-08-04T03:21:34Z) - Deep Reinforcement Learning for Autonomous Driving: A Survey [0.3694429692322631]
このレビューは、深層強化学習(DRL)アルゴリズムを要約し、自動走行タスクの分類を提供する。
また、振る舞いのクローン化、模倣学習、逆強化学習など、古典的なRLアルゴリズムとは無関係な隣接領域についても記述する。
トレーニングエージェントにおけるシミュレータの役割,RLにおける既存ソリューションの検証,テスト,堅牢化手法について論じる。
論文 参考訳(メタデータ) (2020-02-02T18:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。