論文の概要: Increasing the Efficiency of Policy Learning for Autonomous Vehicles by
Multi-Task Representation Learning
- arxiv url: http://arxiv.org/abs/2103.14718v1
- Date: Fri, 26 Mar 2021 20:16:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-03 16:01:48.767649
- Title: Increasing the Efficiency of Policy Learning for Autonomous Vehicles by
Multi-Task Representation Learning
- Title(参考訳): マルチタスク表現学習による自動運転車のポリシー学習の効率化
- Authors: Eshagh Kargar and Ville Kyrki
- Abstract要約: 関連する意味的要因の知識を活用し,環境の低次元かつ豊かな潜在表現を学ぶことを提案する。
また,ダウンストリームポリシの入力として,学習した潜在表現に加えて,ハザード信号を提案する。
特に、提案された表現学習とハザード信号は、ベースラインメソッドよりもパフォーマンスの向上とデータの削減により、学習の学習を迅速に強化するのに役立ちます。
- 参考スコア(独自算出の注目度): 17.825845543579195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driving in a dynamic, multi-agent, and complex urban environment is a
difficult task requiring a complex decision-making policy. The learning of such
a policy requires a state representation that can encode the entire
environment. Mid-level representations that encode a vehicle's environment as
images have become a popular choice. Still, they are quite high-dimensional,
limiting their use in data-hungry approaches such as reinforcement learning. In
this article, we propose to learn a low-dimensional and rich latent
representation of the environment by leveraging the knowledge of relevant
semantic factors. To do this, we train an encoder-decoder deep neural network
to predict multiple application-relevant factors such as the trajectories of
other agents and the ego car. We also propose a hazard signal in addition to
the learned latent representation as input to a down-stream policy. We
demonstrate that using the multi-head encoder-decoder neural network results in
a more informative representation than a standard single-head model. In
particular, the proposed representation learning and the hazard signal help
reinforcement learning to learn faster, with increased performance and less
data than baseline methods.
- Abstract(参考訳): ダイナミックでマルチエージェントで複雑な都市環境における運転は、複雑な意思決定方針を必要とする難しい課題である。
このようなポリシーの学習には、環境全体をエンコードできる状態表現が必要である。
車両の環境を画像としてエンコードする中間層表現が一般的な選択肢となっている。
それでも、それらは非常に高次元であり、強化学習のようなデータハングリーなアプローチでの使用を制限する。
本稿では,関連する意味的要因の知識を活用し,環境の低次元かつ豊かな潜在表現を学ぶことを提案する。
これを実現するために,エンコーダ・デコーダ深層ニューラルネットワークを訓練し,他のエージェントやegoカーの軌道など,複数のアプリケーション関連因子を予測する。
また,ダウンストリームポリシの入力として,学習した潜在表現に加えて,ハザード信号を提案する。
マルチヘッドエンコーダデコーダニューラルネットワークを用いることで、標準のシングルヘッドモデルよりもより情報的な表現が得られることを示す。
特に、提案した表現学習とハザード信号は、ベースライン法よりも高い性能と少ないデータで、強化学習を高速に学習するのに役立つ。
関連論文リスト
- Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z) - CARNet: A Dynamic Autoencoder for Learning Latent Dynamics in Autonomous
Driving Tasks [11.489187712465325]
自律運転システムは、世界の抽象的な記述を形成するために、様々なセンサから収集した情報を効果的に活用すべきである。
オートエンコーダのようなディープラーニングモデルは、受信データのストリームからコンパクトな潜在表現を学習できるため、その目的のために使用できる。
この研究は、自動エンコーダとリカレントニューラルネットワークを組み合わせて現在の潜伏表現を学習する、複合dynAmicautoencodeRネットワークアーキテクチャであるCARNetを提案する。
論文 参考訳(メタデータ) (2022-05-18T04:15:42Z) - Toward a Geometrical Understanding of Self-supervised Contrastive
Learning [55.83778629498769]
自己教師付き学習(SSL)は、人間のアノテーションがなければ、伝達学習に有効なデータ表現を作成するための最重要技術の一つである。
メインストリームSSL技術は、エンコーダとプロジェクタという2つのカスケードニューラルネットワークを備えた、特定のディープニューラルネットワークアーキテクチャに依存している。
本稿では,データ拡張ポリシーの強みがデータ埋め込みに与える影響について検討する。
論文 参考訳(メタデータ) (2022-05-13T23:24:48Z) - Vision Transformer for Learning Driving Policies in Complex Multi-Agent
Environments [17.825845543579195]
我々は,視覚変換器(ViT)を用いて,鳥眼ビュー(BEV)入力画像を用いた都市環境における運転方針を学習することを提案する。
ViTネットワークは、従来提案されていた畳み込みニューラルネットワーク(ConvNets)よりも、シーンのグローバルなコンテキストを効果的に学習する
論文 参考訳(メタデータ) (2021-09-14T08:18:47Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - Autonomous Navigation through intersections with Graph
ConvolutionalNetworks and Conditional Imitation Learning for Self-driving
Cars [10.080958939027363]
自動運転では、信号のない交差点を通るナビゲーションは難しい作業だ。
ナビゲーションポリシー学習のための新しい分岐ネットワークG-CILを提案する。
エンドツーエンドのトレーニング可能なニューラルネットワークは、より高い成功率と短いナビゲーション時間でベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-01T07:33:12Z) - Deep Surrogate Q-Learning for Autonomous Driving [17.30342128504405]
本稿では,自律運転における車線変更行動学習のためのSurrogate Q-learningを提案する。
このアーキテクチャは、Scene-centric Experience Replayと呼ばれる新しいリプレイサンプリング技術に繋がることを示す。
また,本手法は実高Dデータセット上のポリシーを学習することで,実世界のRLシステムの適用性を向上させる。
論文 参考訳(メタデータ) (2020-10-21T19:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。