論文の概要: Sample Efficient Interactive End-to-End Deep Learning for Self-Driving
Cars with Selective Multi-Class Safe Dataset Aggregation
- arxiv url: http://arxiv.org/abs/2007.14671v1
- Date: Wed, 29 Jul 2020 08:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 20:20:23.077208
- Title: Sample Efficient Interactive End-to-End Deep Learning for Self-Driving
Cars with Selective Multi-Class Safe Dataset Aggregation
- Title(参考訳): マルチクラス安全データセットアグリゲーションを用いた自動運転車のための効率的なエンドツーエンドディープラーニングサンプル
- Authors: Yunus Bicer, Ali Alizadeh, Nazim Kemal Ure, Ahmetcan Erdogan, and
Orkun Kizilirmak
- Abstract要約: エンドツーエンドの模倣学習は、自動運転車のポリシーを計算するための一般的な方法である。
標準的なアプローチは、エキスパートポリシーから入力(カメライメージ)と出力(ステアリングアングルなど)のペアを収集し、深層ニューラルネットワークをこのデータに適合させて駆動ポリシーを学ぶことに依存している。
- 参考スコア(独自算出の注目度): 0.13048920509133805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this paper is to develop a sample efficient end-to-end deep
learning method for self-driving cars, where we attempt to increase the value
of the information extracted from samples, through careful analysis obtained
from each call to expert driver\'s policy. End-to-end imitation learning is a
popular method for computing self-driving car policies. The standard approach
relies on collecting pairs of inputs (camera images) and outputs (steering
angle, etc.) from an expert policy and fitting a deep neural network to this
data to learn the driving policy. Although this approach had some successful
demonstrations in the past, learning a good policy might require a lot of
samples from the expert driver, which might be resource-consuming. In this
work, we develop a novel framework based on the Safe Dateset Aggregation (safe
DAgger) approach, where the current learned policy is automatically segmented
into different trajectory classes, and the algorithm identifies trajectory
segments or classes with the weak performance at each step. Once the trajectory
segments with weak performance identified, the sampling algorithm focuses on
calling the expert policy only on these segments, which improves the
convergence rate. The presented simulation results show that the proposed
approach can yield significantly better performance compared to the standard
Safe DAgger algorithm while using the same amount of samples from the expert.
- Abstract(参考訳): 本研究の目的は,各呼び出しから専門家ドライバーのポリシーに注意深い分析を行うことで,サンプルから抽出した情報の価値を高めることを目的とする,自動運転車のための効率的なエンドツーエンドディープラーニング手法を開発することである。
エンドツーエンドの模倣学習は、自動運転車のポリシーを計算する一般的な方法である。
標準的なアプローチは、専門家のポリシーから入力(カメライメージ)と出力(操舵角など)のペアを収集し、深層ニューラルネットワークをこのデータに適合させて運転ポリシーを学ぶことに依存している。
このアプローチには過去にいくつかの成功例があったが、優れたポリシを学ぶには、エキスパートドライバからの多くのサンプルが必要になる可能性がある。
本研究では,現在学習しているポリシーを異なる軌道クラスに自動的に分割するSafe Dateset Aggregation(Safe DAgger)アプローチに基づく新しいフレームワークを開発し,各ステップで弱い性能を持つ軌道セグメントやクラスを同定する。
性能の弱い軌道セグメントが特定されると、サンプリングアルゴリズムはこれらのセグメントのみに専門家ポリシーを呼び出すことに集中し、収束率を向上させる。
シミュレーションの結果,提案手法は標準のSafe DAggerアルゴリズムと比較して,同じ量のサンプルを専門家から使用しながら,高い性能が得られることがわかった。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - A Semi-supervised Approach for Activity Recognition from Indoor
Trajectory Data [0.822021749810331]
協調生産環境において, 騒音の多い室内軌道データから移動物体の動作を分類する作業について検討する。
本稿では,まず情報理論の基準を適用し,長い軌道をセグメントに分割する半教師付き機械学習手法を提案する。
セグメントは制約付き階層的クラスタリング法に基づいて自動的にラベル付けされる。
論文 参考訳(メタデータ) (2023-01-09T01:20:50Z) - Pushing the Limits of Learning-based Traversability Analysis for
Autonomous Driving on CPU [1.841057463340778]
本稿では,リアルタイム機械学習に基づくトラバーサビリティ分析手法の提案と評価を行う。
新しい幾何学的特徴と視覚的特徴を統合し、重要な実装の詳細に焦点を当てることで、パフォーマンスと信頼性が著しく向上することを示します。
提案手法は、屋外運転シナリオのパブリックデータセットに関する最先端のDeep Learningアプローチと比較されている。
論文 参考訳(メタデータ) (2022-06-07T07:57:34Z) - Learning Interactive Driving Policies via Data-driven Simulation [125.97811179463542]
データ駆動シミュレータは、ポリシー学習の駆動に高いデータ効率を約束する。
小さな基盤となるデータセットは、インタラクティブな運転を学ぶための興味深い、挑戦的なエッジケースを欠いていることが多い。
本研究では,ロバストな運転方針の学習に塗装されたアドカーを用いたシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T20:14:02Z) - Efficient Sampling-Based Maximum Entropy Inverse Reinforcement Learning
with Application to Autonomous Driving [35.44498286245894]
本稿では,効率的なサンプリングに基づく最大エントロピー逆強化学習(IRL)アルゴリズムを提案する。
提案アルゴリズムは,非対話的シナリオと対話的シナリオの両方を含む実運転データに基づいて評価する。
論文 参考訳(メタデータ) (2020-06-22T01:41:13Z) - Fast Template Matching and Update for Video Object Tracking and
Segmentation [56.465510428878]
私たちが取り組もうとしている主な課題は、フレームの列にまたがるマルチインスタンスの半教師付きビデオオブジェクトセグメンテーションである。
課題は、結果を予測するためのマッチングメソッドの選択と、ターゲットテンプレートを更新するかどうかを決定することである。
本稿では,これら2つの決定を同時に行うために,強化学習を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-04-16T08:58:45Z) - Lane-Merging Using Policy-based Reinforcement Learning and
Post-Optimization [0.0]
政策に基づく強化学習と局所最適化を組み合わせることで,2つの方法論のベストプラクティスを育成,合成する。
車両数の異なる車線変更シナリオを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-06T12:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。