論文の概要: Think Twice before Driving: Towards Scalable Decoders for End-to-End
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2305.06242v1
- Date: Wed, 10 May 2023 15:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 12:23:44.674828
- Title: Think Twice before Driving: Towards Scalable Decoders for End-to-End
Autonomous Driving
- Title(参考訳): 運転前に考える:エンドツーエンドの自動運転のためのスケーラブルデコーダを目指して
- Authors: Xiaosong Jia, Penghao Wu, Li Chen, Jiangwei Xie, Conghui He, Junchi
Yan, Hongyang Li
- Abstract要約: 既存のメソッドは通常、分離されたエンコーダ-デコーダパラダイムを採用する。
本研究は,この問題を2つの原則で緩和することを目的としている。
まず、エンコーダの特徴に基づいて、粗い将来の位置と行動を予測する。
そして、その位置と動作を条件に、将来のシーンを想像して、それに従って運転した場合にその影響を確認する。
- 参考スコア(独自算出の注目度): 74.28510044056706
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: End-to-end autonomous driving has made impressive progress in recent years.
Existing methods usually adopt the decoupled encoder-decoder paradigm, where
the encoder extracts hidden features from raw sensor data, and the decoder
outputs the ego-vehicle's future trajectories or actions. Under such a
paradigm, the encoder does not have access to the intended behavior of the ego
agent, leaving the burden of finding out safety-critical regions from the
massive receptive field and inferring about future situations to the decoder.
Even worse, the decoder is usually composed of several simple multi-layer
perceptrons (MLP) or GRUs while the encoder is delicately designed (e.g., a
combination of heavy ResNets or Transformer). Such an imbalanced resource-task
division hampers the learning process.
In this work, we aim to alleviate the aforementioned problem by two
principles: (1) fully utilizing the capacity of the encoder; (2) increasing the
capacity of the decoder. Concretely, we first predict a coarse-grained future
position and action based on the encoder features. Then, conditioned on the
position and action, the future scene is imagined to check the ramification if
we drive accordingly. We also retrieve the encoder features around the
predicted coordinate to obtain fine-grained information about the
safety-critical region. Finally, based on the predicted future and the
retrieved salient feature, we refine the coarse-grained position and action by
predicting its offset from ground-truth. The above refinement module could be
stacked in a cascaded fashion, which extends the capacity of the decoder with
spatial-temporal prior knowledge about the conditioned future. We conduct
experiments on the CARLA simulator and achieve state-of-the-art performance in
closed-loop benchmarks. Extensive ablation studies demonstrate the
effectiveness of each proposed module.
- Abstract(参考訳): 近年、エンドツーエンドの自動運転は目覚ましい進歩を遂げている。
既存の方法はデカップリングエンコーダ-デコーダパラダイムを採用しており、エンコーダは生のセンサーデータから隠れた特徴を抽出し、デコーダはエゴベクトルの将来の軌道や動作を出力する。
このようなパラダイムの下では、エンコーダはegoエージェントの意図した動作にアクセスできず、大量の受容野から安全クリティカルな領域を見つけ出し、将来の状況についてデコーダに推測する責任を負う。
さらに悪いことに、デコーダはいくつかの単純な多層パーセプトロン(MLP)またはGRUで構成され、エンコーダは繊細に設計されている(例えば、重いResNetとTransformerの組み合わせ)。
このような不均衡なリソースタスク分割は、学習プロセスを妨げる。
本研究では,(1)エンコーダの容量を十分に活用すること,(2)デコーダの容量を増やすこと,という2つの原理により,上記の問題を緩和することを目的とする。
具体的には,まずエンコーダの特徴に基づいて粗粒度の将来位置と動作を予測する。
そして、その位置と動作を条件に、将来のシーンを想像して、それに従って運転した場合にその影響を確認する。
また、予測座標の周囲のエンコーダの特徴を検索し、安全臨界領域に関するきめ細かい情報を得る。
最後に, 予測される未来と得られたサルエント特徴に基づいて, 地盤からオフセットを予測し, 粗粒度の位置と動作を洗練する。
上述のリファインメントモジュールはカスケード方式で積み重ねることができるため、デコーダの容量を条件付き未来に関する時空間的事前知識で拡張することができる。
我々はcarlaシミュレータで実験を行い,クローズドループベンチマークで最新性能を実現する。
広範なアブレーション研究により,各モジュールの有効性が示された。
関連論文リスト
- Learning Linear Block Error Correction Codes [62.25533750469467]
本稿では,バイナリ線形ブロック符号の統一エンコーダデコーダトレーニングを初めて提案する。
また,コード勾配の効率的なバックプロパゲーションのために,自己注意マスキングを行うトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-05-07T06:47:12Z) - Take an Irregular Route: Enhance the Decoder of Time-Series Forecasting
Transformer [9.281993269355544]
本稿では,エンコーダとデコーダのボトムアップおよびトップダウンアーキテクチャを利用して,完全かつ合理的な階層を構築するためのFPPformerを提案する。
6つの最先端ベンチマークによる大規模な実験は、FPPformerの有望な性能を検証する。
論文 参考訳(メタデータ) (2023-12-10T06:50:56Z) - DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - Challenging Decoder helps in Masked Auto-Encoder Pre-training for Dense
Passage Retrieval [10.905033385938982]
Masked Auto-Encoder (MAE) 事前トレーニングアーキテクチャが最も有望である。
本稿では,デコーダの難易度を高めるために,ポイントワイド相互情報に基づく新しいトークン重要マスキング戦略を提案する。
論文 参考訳(メタデータ) (2023-05-22T16:27:10Z) - Dense Coding with Locality Restriction for Decoder: Quantum Encoders vs.
Super-Quantum Encoders [67.12391801199688]
我々は、デコーダに様々な局所性制限を課すことにより、濃密な符号化について検討する。
このタスクでは、送信者アリスと受信機ボブが絡み合った状態を共有する。
論文 参考訳(メタデータ) (2021-09-26T07:29:54Z) - Decoder Fusion RNN: Context and Interaction Aware Decoders for
Trajectory Prediction [53.473846742702854]
本稿では,動き予測のための反復的,注意に基づくアプローチを提案する。
Decoder Fusion RNN (DF-RNN) は、リカレント動作エンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成される。
提案手法の有効性をArgoverseモーション予測データセットで検証し,その性能を公開ベンチマークで示す。
論文 参考訳(メタデータ) (2021-08-12T15:53:37Z) - Split Learning Meets Koopman Theory for Wireless Remote Monitoring and
Prediction [76.88643211266168]
本稿では,エンコーダとデコーダを分離して状態センサに格納するオートエンコーダとそのリモートオブザーバを訓練する。
このオートエンコーダは、状態表現寸法を減らすことでリモート監視ペイロードのサイズを小さくするだけでなく、Koopman演算子を介してシステムダイナミクスを学ぶ。
非線形なカートポール環境下での数値実験の結果,提案するkoopmanオートエンコーダの分割学習により,将来の状態を局所的に予測でき,予測精度は表現次元と伝送パワーで向上する。
論文 参考訳(メタデータ) (2021-04-16T13:34:01Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。