論文の概要: Planning on the fast lane: Learning to interact using attention
mechanisms in path integral inverse reinforcement learning
- arxiv url: http://arxiv.org/abs/2007.05798v2
- Date: Sat, 12 Sep 2020 08:33:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 13:16:17.610750
- Title: Planning on the fast lane: Learning to interact using attention
mechanisms in path integral inverse reinforcement learning
- Title(参考訳): 高速レーンの計画--経路積分逆強化学習における注意機構を用いた相互作用の学習
- Authors: Sascha Rosbach, Xing Li, Simon Gro{\ss}johann, Silviu Homoceanu and
Stefan Roth
- Abstract要約: 自動走行のための汎用軌道計画アルゴリズムは複雑な報酬関数を利用する。
深層学習アプローチは局所的な状況依存報酬関数の予測に成功している。
低次元の文脈ベクトルを生成するためにポリシーアテンション機構を用いるニューラルネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 20.435909887810165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-purpose trajectory planning algorithms for automated driving utilize
complex reward functions to perform a combined optimization of strategic,
behavioral, and kinematic features. The specification and tuning of a single
reward function is a tedious task and does not generalize over a large set of
traffic situations. Deep learning approaches based on path integral inverse
reinforcement learning have been successfully applied to predict local
situation-dependent reward functions using features of a set of sampled driving
policies. Sample-based trajectory planning algorithms are able to approximate a
spatio-temporal subspace of feasible driving policies that can be used to
encode the context of a situation. However, the interaction with dynamic
objects requires an extended planning horizon, which depends on sequential
context modeling. In this work, we are concerned with the sequential reward
prediction over an extended time horizon. We present a neural network
architecture that uses a policy attention mechanism to generate a
low-dimensional context vector by concentrating on trajectories with a
human-like driving style. Apart from this, we propose a temporal attention
mechanism to identify context switches and allow for stable adaptation of
rewards. We evaluate our results on complex simulated driving situations,
including other moving vehicles. Our evaluation shows that our policy attention
mechanism learns to focus on collision-free policies in the configuration
space. Furthermore, the temporal attention mechanism learns persistent
interaction with other vehicles over an extended planning horizon.
- Abstract(参考訳): 自動運転のための汎用軌道計画アルゴリズムは、複雑な報酬関数を利用して、戦略的、行動的、キネマティックな特徴の最適化を行う。
単一報酬関数の仕様とチューニングは面倒な作業であり、多くの交通状況に対して一般化しない。
経路積分逆強化学習に基づく深層学習手法は,一組のサンプル駆動ポリシの特徴を用いた局所的な状況依存報酬関数の予測に成功している。
サンプルベースの軌道計画アルゴリズムは、状況の文脈をエンコードするために使用できる、実現可能な運転ポリシーの時空間を近似することができる。
しかし、動的オブジェクトとの相互作用は、シーケンシャルなコンテキストモデリングに依存する拡張計画の地平線を必要とする。
本研究では, 長期の地平線上での逐次報酬予測について検討する。
人のような運転スタイルで軌跡に集中して低次元の文脈ベクトルを生成するためにポリシーアテンション機構を用いたニューラルネットワークアーキテクチャを提案する。
これとは別に,文脈スイッチを識別し,報奨の安定した適応を可能にする時間的注意機構を提案する。
我々は、他の移動車両を含む複雑な運転状況について、結果を評価する。
評価の結果、ポリシー注目機構は、コンフィグレーション空間における衝突のないポリシーに焦点をあてることを学びます。
さらに、時間的注意機構は、拡張計画地平線上で他の車両との永続的な相互作用を学習する。
関連論文リスト
- End-to-end Driving in High-Interaction Traffic Scenarios with Reinforcement Learning [24.578178308010912]
これらの問題に対処するために,Ranmble というエンドツーエンドモデルベース RL アルゴリズムを提案する。
環境のダイナミックスモデルを学ぶことで、Rambleは今後のトラフィックイベントを予測し、より情報に富んだ戦略的決定を下すことができる。
Rambleは、CARLA Leaderboard 2.0におけるルート完了率と運転スコアに関する最先端のパフォーマンスを達成し、複雑でダイナミックな交通状況を管理する上での有効性を示している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - PPAD: Iterative Interactions of Prediction and Planning for End-to-end Autonomous Driving [57.89801036693292]
PPAD(Iterative Interaction of Prediction and Planning Autonomous Driving)は、予測と計画のより良い統合を目的とした、タイムステップワイドなインタラクションである。
我々は,階層的動的キーオブジェクトに着目したego-to-agent,ego-to-map,ego-to-BEVインタラクション機構を設計し,インタラクションをモデル化する。
論文 参考訳(メタデータ) (2023-11-14T11:53:24Z) - Integration of Reinforcement Learning Based Behavior Planning With
Sampling Based Motion Planning for Automated Driving [0.5801044612920815]
本研究では,高度行動計画のための訓練された深層強化学習ポリシーを用いる方法を提案する。
私たちの知る限りでは、この研究は、この方法で深層強化学習を適用した最初のものである。
論文 参考訳(メタデータ) (2023-04-17T13:49:55Z) - GINK: Graph-based Interaction-aware Kinodynamic Planning via
Reinforcement Learning for Autonomous Driving [10.782043595405831]
都市部などの構造環境下での自律運転に深部強化学習(D)を適用するには,多くの課題がある。
本稿では,グラフに基づく意図表現と動的計画のための強化学習を効果的に組み合わせた新しいフレームワークを提案する。
この実験は,既存のベースラインと比較して,我々のアプローチの最先端性能を示すものである。
論文 参考訳(メタデータ) (2022-06-03T10:37:25Z) - Deep Interactive Motion Prediction and Planning: Playing Games with
Motion Prediction Models [162.21629604674388]
本研究は,新しい対話型マルチエージェントニューラルネットワークポリシを予測モデルの一部として使用するゲーム理論モデル予測制御器(MPC)を提案する。
本手法の成功の基礎は,周辺エージェントの状態と地図情報に基づいて車両を操縦できる,新しいマルチエージェントポリシーネットワークの設計である。
論文 参考訳(メタデータ) (2022-04-05T17:58:18Z) - Generating Useful Accident-Prone Driving Scenarios via a Learned Traffic
Prior [135.78858513845233]
STRIVEは、特定のプランナーが衝突のような望ましくない振る舞いを発生させるような、困難なシナリオを自動的に生成する手法である。
シナリオの妥当性を維持するために、キーとなるアイデアは、グラフベースの条件付きVAEという形で、学習した交通運動モデルを活用することである。
その後の最適化は、シナリオの"解決"を見つけるために使用され、与えられたプランナーを改善するのに有効である。
論文 参考訳(メタデータ) (2021-12-09T18:03:27Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z) - An End-to-end Deep Reinforcement Learning Approach for the Long-term
Short-term Planning on the Frenet Space [0.0]
本稿では,自動運転車の意思決定と動作計画に向けた,エンドツーエンドの継続的強化学習手法を提案する。
初めて、Frenet空間上の状態と行動空間の両方を定義して、走行挙動を道路曲率に変化させないようにする。
このアルゴリズムは、フィードバックコントローラが追跡するFrenetフレーム上で連続時間軌道を生成する。
論文 参考訳(メタデータ) (2020-11-26T02:40:07Z) - Trajectory Planning for Autonomous Vehicles Using Hierarchical
Reinforcement Learning [21.500697097095408]
不確実かつ動的条件下で安全な軌道を計画することは、自律運転問題を著しく複雑にする。
RRT(Rapidly Exploring Random Trees)のような現在のサンプリングベース手法は、高い計算コストのため、この問題には理想的ではない。
軌道計画のための階層型強化学習構造とPID(Proportional-Integral-Derivative)コントローラを提案する。
論文 参考訳(メタデータ) (2020-11-09T20:49:54Z) - Intelligent Roundabout Insertion using Deep Reinforcement Learning [68.8204255655161]
本稿では,多忙なラウンドアバウンドの入場を交渉できる演習計画モジュールを提案する。
提案されたモジュールは、トレーニングされたニューラルネットワークに基づいて、操作の全期間にわたって、ラウンドアバウンドに入るタイミングと方法を予測する。
論文 参考訳(メタデータ) (2020-01-03T11:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。