論文の概要: Efficient Sampling-Based Maximum Entropy Inverse Reinforcement Learning
with Application to Autonomous Driving
- arxiv url: http://arxiv.org/abs/2006.13704v1
- Date: Mon, 22 Jun 2020 01:41:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 05:29:33.612813
- Title: Efficient Sampling-Based Maximum Entropy Inverse Reinforcement Learning
with Application to Autonomous Driving
- Title(参考訳): 効率的なサンプリングに基づく最大エントロピー逆強化学習と自律運転への応用
- Authors: Zheng Wu, Liting Sun, Wei Zhan, Chenyu Yang, Masayoshi Tomizuka
- Abstract要約: 本稿では,効率的なサンプリングに基づく最大エントロピー逆強化学習(IRL)アルゴリズムを提案する。
提案アルゴリズムは,非対話的シナリオと対話的シナリオの両方を含む実運転データに基づいて評価する。
- 参考スコア(独自算出の注目度): 35.44498286245894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past decades, we have witnessed significant progress in the domain of
autonomous driving. Advanced techniques based on optimization and reinforcement
learning (RL) become increasingly powerful at solving the forward problem:
given designed reward/cost functions, how should we optimize them and obtain
driving policies that interact with the environment safely and efficiently.
Such progress has raised another equally important question: \emph{what should
we optimize}? Instead of manually specifying the reward functions, it is
desired that we can extract what human drivers try to optimize from real
traffic data and assign that to autonomous vehicles to enable more naturalistic
and transparent interaction between humans and intelligent agents. To address
this issue, we present an efficient sampling-based maximum-entropy inverse
reinforcement learning (IRL) algorithm in this paper. Different from existing
IRL algorithms, by introducing an efficient continuous-domain trajectory
sampler, the proposed algorithm can directly learn the reward functions in the
continuous domain while considering the uncertainties in demonstrated
trajectories from human drivers. We evaluate the proposed algorithm on real
driving data, including both non-interactive and interactive scenarios. The
experimental results show that the proposed algorithm achieves more accurate
prediction performance with faster convergence speed and better generalization
compared to other baseline IRL algorithms.
- Abstract(参考訳): 過去数十年間、私たちは自動運転分野の著しい進歩を目の当たりにしてきた。
最適化と強化学習(RL)に基づく高度な技術は、設計された報酬/コスト関数を与えられた場合、どのように最適化し、環境と安全かつ効率的に対話する駆動ポリシーを得るかという、前方問題の解決においてますます強力になる。
このような進歩は、同じく重要な疑問を提起している: \emph{what should we optimize}?
報酬関数を手動で指定する代わりに、人間のドライバーが実際の交通データから最適化しようとしているものを抽出し、それを自動運転車に割り当てることで、人間と知的エージェント間のより自然で透明な対話を可能にすることが望ましい。
この問題に対処するため,本論文では,サンプリングに基づく最大エントロピー逆強化学習 (irl) アルゴリズムを提案する。
既存のIRLアルゴリズムと異なり、効率的な連続領域トラジェクトリサンプリングを導入することにより、提案アルゴリズムは、人間のドライバによる実証軌道の不確実性を考慮して、連続領域における報酬関数を直接学習することができる。
提案アルゴリズムは,非対話的シナリオと対話的シナリオの両方を含む実運転データに基づいて評価する。
実験の結果,提案アルゴリズムは他のベースラインirlアルゴリズムと比較して,収束速度と一般化が速く,精度の高い予測性能が得られることがわかった。
関連論文リスト
- Rethinking Optimal Transport in Offline Reinforcement Learning [64.56896902186126]
オフラインの強化学習では、データはさまざまな専門家によって提供され、一部は準最適である。
効率的なポリシを抽出するには、データセットから最高の振る舞いを強調する必要がある。
本稿では,各状態に対する最善の専門家行動の公平な分布に状態をマッピングするポリシーを見つけることを目的としたアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T22:36:43Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Bi-Level Optimization Augmented with Conditional Variational Autoencoder
for Autonomous Driving in Dense Traffic [0.9281671380673306]
本稿では、最適行動決定と結果の軌跡を共同で計算するパラメータ化バイレベル最適化を提案する。
当社のアプローチは,GPUアクセラレーションバッチを使用してリアルタイムに動作し,変分オートエンコーダがウォームスタート戦略を学習する。
本手法は, 運転効率の競争力に優れながら, 衝突速度の観点から, 最先端モデル予測制御とRLアプローチより優れる。
論文 参考訳(メタデータ) (2022-12-05T12:56:42Z) - Fast and computationally efficient generative adversarial network
algorithm for unmanned aerial vehicle-based network coverage optimization [1.2853186701496802]
移動ネットワークにおける動的な交通需要の課題は、無人航空機をベースとした移動セルに対処されている。
将来,無人航空機の膨大な可能性を考えると,カバー範囲最適化のための新しいアルゴリズムを提案する。
提案アルゴリズムは,一意の多層和プーリング損失関数を持つ条件付き生成逆ニューラルネットワークに基づいて実装された。
論文 参考訳(メタデータ) (2022-03-25T12:13:21Z) - Dynamic Origin-Destination Matrix Estimation in Urban Traffic Networks [0.05735035463793007]
この問題を二段階最適化問題としてモデル化する。
内部レベルでは、暫定的な旅行需要を前提として、動的な交通割当問題を解決し、利用者の出身地と目的地間のルーティングを決定する。
外層部では,交通ネットワーク内のセンサによって測定された車両数と内層部で発生したカウンタの差を最小限に抑えることを目的として,旅行数とその出発点および目的地の調整を行う。
論文 参考訳(メタデータ) (2022-01-31T21:33:46Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Model-based Decision Making with Imagination for Autonomous Parking [50.41076449007115]
提案アルゴリズムは,駐車前に結果を予測するための想像モデル,高速探索ランダムツリー(RRT)の改良,経路平滑化モジュールの3つの部分から構成される。
われわれのアルゴリズムは、実際のキネマティックな車両モデルに基づいており、実際の自動運転車にアルゴリズムを適用するのにより適している。
アルゴリズムの有効性を評価するため,3つの異なる駐車シナリオにおいて,従来のRTとアルゴリズムを比較した。
論文 参考訳(メタデータ) (2021-08-25T18:24:34Z) - Integrated Decision and Control: Towards Interpretable and Efficient
Driving Intelligence [13.589285628074542]
自動走行車のための解釈可能かつ効率的な意思決定・制御フレームワークを提案する。
駆動タスクを階層的に構造化されたマルチパス計画と最適追跡に分解する。
その結果,オンライン計算の効率性や交通効率,安全性などの運転性能が向上した。
論文 参考訳(メタデータ) (2021-03-18T14:43:31Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z) - Sample Efficient Interactive End-to-End Deep Learning for Self-Driving
Cars with Selective Multi-Class Safe Dataset Aggregation [0.13048920509133805]
エンドツーエンドの模倣学習は、自動運転車のポリシーを計算するための一般的な方法である。
標準的なアプローチは、エキスパートポリシーから入力(カメライメージ)と出力(ステアリングアングルなど)のペアを収集し、深層ニューラルネットワークをこのデータに適合させて駆動ポリシーを学ぶことに依存している。
論文 参考訳(メタデータ) (2020-07-29T08:38:00Z) - DADA: Differentiable Automatic Data Augmentation [58.560309490774976]
コストを大幅に削減する微分可能自動データ拡張(DADA)を提案する。
CIFAR-10, CIFAR-100, SVHN, ImageNetのデータセットについて広範な実験を行った。
その結果,DADAは最先端技術よりも1桁以上高速であり,精度は極めて高いことがわかった。
論文 参考訳(メタデータ) (2020-03-08T13:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。