論文の概要: NEAT: Neural Attention Fields for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2109.04456v1
- Date: Thu, 9 Sep 2021 17:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:35:58.646979
- Title: NEAT: Neural Attention Fields for End-to-End Autonomous Driving
- Title(参考訳): NEAT: エンドツーエンド自動運転のためのニューラルアテンションフィールド
- Authors: Kashyap Chitta, Aditya Prakash, Andreas Geiger
- Abstract要約: 本稿では、模倣学習モデルの効率的な推論を可能にする新しい表現であるNEAT(NEural Attention Field)を提案する。
NEATは、Bird's Eye View (BEV) シーン座標の位置をウェイポイントとセマンティクスにマッピングする連続関数である。
有害な環境条件や挑戦的なシナリオを含む新たな評価環境では、NEATはいくつかの強いベースラインを上回り、特権のあるCARLA専門家と同等の運転スコアを達成している。
- 参考スコア(独自算出の注目度): 59.60483620730437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient reasoning about the semantic, spatial, and temporal structure of a
scene is a crucial prerequisite for autonomous driving. We present NEural
ATtention fields (NEAT), a novel representation that enables such reasoning for
end-to-end imitation learning models. NEAT is a continuous function which maps
locations in Bird's Eye View (BEV) scene coordinates to waypoints and
semantics, using intermediate attention maps to iteratively compress
high-dimensional 2D image features into a compact representation. This allows
our model to selectively attend to relevant regions in the input while ignoring
information irrelevant to the driving task, effectively associating the images
with the BEV representation. In a new evaluation setting involving adverse
environmental conditions and challenging scenarios, NEAT outperforms several
strong baselines and achieves driving scores on par with the privileged CARLA
expert used to generate its training data. Furthermore, visualizing the
attention maps for models with NEAT intermediate representations provides
improved interpretability.
- Abstract(参考訳): シーンの意味的、空間的、時間的構造に関する効率的な推論は、自動運転にとって重要な前提条件である。
本稿では、エンドツーエンドの模倣学習モデルの推論を可能にする新しい表現であるNEAT(NEural Attention Field)を提案する。
neatは、鳥の視線(bev)シーンの座標の位置をウェイポイントやセマンティクスにマッピングする連続関数であり、中間の注意マップを使用して、高次元の2d画像の特徴を反復的に圧縮し、コンパクトな表現に変換する。
これにより,BEV表現と画像を効果的に関連付けることにより,運転タスクに関係のない情報を無視しながら,入力内の関連領域に選択的に参加することが可能となる。
有害な環境条件や挑戦的なシナリオを含む新たな評価設定において、NEATは、いくつかの強力なベースラインを上回り、トレーニングデータを生成するために使用される特権付きCARLA専門家と同等の運転スコアを達成する。
さらに,NEAT中間表現を用いたモデルに対するアテンションマップの可視化により,解釈性が向上した。
関連論文リスト
- VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - Deep Attention Driven Reinforcement Learning (DAD-RL) for Autonomous Decision-Making in Dynamic Environment [2.3575550107698016]
AV中心の時間的注意符号化(STAE)機構を導入し,周囲の車両との動的相互作用を学習する。
マップとルートのコンテキストを理解するために,コンテキストマップの抽出にコンテキストエンコーダを用いる。
得られたモデルは、Soft Actor Critic (SAC)アルゴリズムを用いて訓練される。
論文 参考訳(メタデータ) (2024-07-12T02:34:44Z) - TK-Planes: Tiered K-Planes with High Dimensional Feature Vectors for Dynamic UAV-based Scenes [58.180556221044235]
本研究では,無人航空機(UAV)の認識における合成データと実世界データとの領域ギャップを埋める新しい手法を提案する。
私たちの定式化は、小さな動く物体や人間の行動からなる動的なシーンのために設計されています。
我々は,Okutama ActionやUG2など,挑戦的なデータセットの性能を評価する。
論文 参考訳(メタデータ) (2024-05-04T21:55:33Z) - Guiding Attention in End-to-End Driving Models [49.762868784033785]
模倣学習によって訓練された視覚ベースのエンドツーエンドの運転モデルは、自動運転のための安価なソリューションにつながる可能性がある。
トレーニング中に損失項を追加することにより、これらのモデルの注意を誘導し、運転品質を向上させる方法について検討する。
従来の研究とは対照的に,本手法では,テスト期間中にこれらの有意義なセマンティックマップを利用できない。
論文 参考訳(メタデータ) (2024-04-30T23:18:51Z) - Optimizing Ego Vehicle Trajectory Prediction: The Graph Enhancement
Approach [1.3931837019950217]
我々は,空間的関係や物体の均一性を捉える上で,独特なアドバンテージを提供するBird's Eye Viewの視点の利用を提唱する。
我々の研究では、グラフニューラルネットワーク(GNN)と位置符号化を利用して、BEV内のオブジェクトを表現する。
論文 参考訳(メタデータ) (2023-12-20T15:22:34Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Ground then Navigate: Language-guided Navigation in Dynamic Scenes [13.870303451896248]
屋外環境での自律運転における視覚・言語ナビゲーション(VLN)問題について検討する。
テキストコマンドに対応するナビゲーション可能な領域を明示的にグラウンドすることで、この問題を解決する。
提案手法の有効性を検証するために, 定性的かつ定量的な実験結果を提供する。
論文 参考訳(メタデータ) (2022-09-24T09:51:09Z) - NMR: Neural Manifold Representation for Autonomous Driving [2.2596039727344452]
本研究では,有限地平線上の多様体上の意味論を推論し,経路点を予測する自律運転の表現を提案する。
本研究では, 周辺単分子画像と部分エゴ車状態の潜時高次元埋め込みに適用した反復的注意機構を用いてこれを行う。
本研究では,BEV占有格子のエッジ適応被覆損失に基づくサンプリングアルゴリズムを提案し,表面多様体を生成する。
論文 参考訳(メタデータ) (2022-05-11T14:58:08Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。