論文の概要: Integrated Decision and Control: Towards Interpretable and Efficient
Driving Intelligence
- arxiv url: http://arxiv.org/abs/2103.10290v1
- Date: Thu, 18 Mar 2021 14:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 13:51:18.862527
- Title: Integrated Decision and Control: Towards Interpretable and Efficient
Driving Intelligence
- Title(参考訳): 統合的意思決定と制御:解釈可能かつ効率的な運転知能を目指して
- Authors: Yang Guan, Yangang Ren, Shengbo Eben Li, Haitong Ma, Jingliang Duan,
Bo Cheng
- Abstract要約: 自動走行車のための解釈可能かつ効率的な意思決定・制御フレームワークを提案する。
駆動タスクを階層的に構造化されたマルチパス計画と最適追跡に分解する。
その結果,オンライン計算の効率性や交通効率,安全性などの運転性能が向上した。
- 参考スコア(独自算出の注目度): 13.589285628074542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision and control are two of the core functionalities of high-level
automated vehicles. Current mainstream methods, such as functionality
decomposition or end-to-end reinforcement learning (RL), either suffer high
time complexity or poor interpretability and limited safety performance in
real-world complex autonomous driving tasks. In this paper, we present an
interpretable and efficient decision and control framework for automated
vehicles, which decomposes the driving task into multi-path planning and
optimal tracking that are structured hierarchically. First, the multi-path
planning is to generate several paths only considering static constraints.
Then, the optimal tracking is designed to track the optimal path while
considering the dynamic obstacles. To that end, in theory, we formulate a
constrained optimal control problem (OCP) for each candidate path, optimize
them separately and choose the one with the best tracking performance to
follow. More importantly, we propose a model-based reinforcement learning (RL)
algorithm, which is served as an approximate constrained OCP solver, to unload
the heavy computation by the paradigm of offline training and online
application. Specifically, the OCPs for all paths are considered together to
construct a multi-task RL problem and then solved offline by our algorithm into
value and policy networks, for real-time online path selecting and tracking
respectively. We verify our framework in both simulation and the real world.
Results show that our method has better online computing efficiency and driving
performance including traffic efficiency and safety compared with baseline
methods. In addition, it yields great interpretability and adaptability among
different driving tasks. The real road test also suggests that it is applicable
in complicated traffic scenarios without even tuning.
- Abstract(参考訳): 意思決定と制御は、高レベルの自動車両の中核機能である。
機能分解やエンドツーエンド強化学習(rl)のような現在の主流の手法は、リアルタイムの複雑な自動運転タスクにおいて、高い時間的複雑さや解釈の貧弱さ、安全性の制限に苦しめられている。
本稿では,運転タスクを階層的に構造化したマルチパス計画と最適追従に分解する,自動車両の解釈可能かつ効率的な意思決定・制御フレームワークを提案する。
まず、マルチパス計画では、静的制約のみを考慮して複数のパスを生成する。
そして、動的障害物を考慮した最適経路を追尾するように最適追尾を設計する。
そのため、理論上、各候補経路に対して制約付き最適制御問題(OCP)を定式化し、それらを個別に最適化し、従うべき最高の追跡性能を持つものを選択する。
さらに,モデルベース強化学習(rl)アルゴリズムを提案する。これは近似制約付きocpソルバとして機能し,オフライントレーニングとオンラインアプリケーションのパラダイムによって重い計算をアンロードする。
具体的には、全経路のOCPを協調してマルチタスクのRL問題を構築し、その後、リアルタイムオンラインパスの選択と追跡のために、我々のアルゴリズムでオフラインで値とポリシーネットワークに分解する。
我々はシミュレーションと現実世界の両方でフレームワークを検証する。
その結果,本手法は,ベースライン方式と比較して,トラヒック効率や安全性を含む運転性能が向上していることがわかった。
さらに、異なる運転タスク間で大きな解釈可能性と適応性が得られる。
実際の道路テストはまた、チューニングもせずに複雑な交通シナリオに適用できることを示唆している。
関連論文リスト
- Rethinking Optimal Transport in Offline Reinforcement Learning [64.56896902186126]
オフラインの強化学習では、データはさまざまな専門家によって提供され、一部は準最適である。
効率的なポリシを抽出するには、データセットから最高の振る舞いを強調する必要がある。
本稿では,各状態に対する最善の専門家行動の公平な分布に状態をマッピングするポリシーを見つけることを目的としたアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T22:36:43Z) - DynamicRouteGPT: A Real-Time Multi-Vehicle Dynamic Navigation Framework Based on Large Language Models [13.33340860174857]
複雑な交通環境におけるリアルタイムな動的経路計画は、交通量の変化や信号待ち時間といった課題を提示する。
DijkstraやA*のような従来の静的ルーティングアルゴリズムは最短経路を計算するが、しばしば動的条件下で失敗する。
本稿では,実時間動的経路計画のための因果推論に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-08-26T11:19:58Z) - LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning [91.95362946266577]
経路計画はロボット工学と自律航法における基本的な科学的問題である。
A*やその変種のような伝統的なアルゴリズムは、パスの妥当性を保証することができるが、状態空間が大きくなるにつれて、計算とメモリの非効率が著しく低下する。
本稿では, A* の正確なパスフィニング能力と LLM のグローバルな推論能力とを相乗的に組み合わせた LLM ベースの経路計画法を提案する。
このハイブリッドアプローチは、特に大規模シナリオにおいて、パス妥当性の完全性を維持しながら、時間と空間の複雑さの観点からパスフィニング効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-06-20T01:24:30Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Bi-Level Optimization Augmented with Conditional Variational Autoencoder
for Autonomous Driving in Dense Traffic [0.9281671380673306]
本稿では、最適行動決定と結果の軌跡を共同で計算するパラメータ化バイレベル最適化を提案する。
当社のアプローチは,GPUアクセラレーションバッチを使用してリアルタイムに動作し,変分オートエンコーダがウォームスタート戦略を学習する。
本手法は, 運転効率の競争力に優れながら, 衝突速度の観点から, 最先端モデル予測制御とRLアプローチより優れる。
論文 参考訳(メタデータ) (2022-12-05T12:56:42Z) - CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards
global optimality [5.0915256711576475]
本稿では,Tlayy(TO)とReinforcement Learning(RL)を1つの軌道で組み合わせた,動的システムの連続制御のための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-12T10:16:35Z) - Unified Automatic Control of Vehicular Systems with Reinforcement
Learning [64.63619662693068]
本稿では,車載マイクロシミュレーションの合理化手法について述べる。
最小限の手動設計で高性能な制御戦略を発見する。
この研究は、波動緩和、交通信号、ランプ計測に類似した多くの創発的挙動を明らかにしている。
論文 参考訳(メタデータ) (2022-07-30T16:23:45Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Decision-making for Autonomous Vehicles on Highway: Deep Reinforcement
Learning with Continuous Action Horizon [14.059728921828938]
本稿では,高速道路における連続水平決定問題に対処するために,深部強化学習(DRL)手法を用いる。
エゴ自動車両の走行目標は、衝突することなく効率的でスムーズなポリシーを実行することである。
PPO-DRLに基づく意思決定戦略は、最適性、学習効率、適応性など、複数の観点から推定される。
論文 参考訳(メタデータ) (2020-08-26T22:49:27Z) - Efficient Sampling-Based Maximum Entropy Inverse Reinforcement Learning
with Application to Autonomous Driving [35.44498286245894]
本稿では,効率的なサンプリングに基づく最大エントロピー逆強化学習(IRL)アルゴリズムを提案する。
提案アルゴリズムは,非対話的シナリオと対話的シナリオの両方を含む実運転データに基づいて評価する。
論文 参考訳(メタデータ) (2020-06-22T01:41:13Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。