論文の概要: CEMFormer: Learning to Predict Driver Intentions from In-Cabin and
External Cameras via Spatial-Temporal Transformers
- arxiv url: http://arxiv.org/abs/2305.07840v1
- Date: Sat, 13 May 2023 05:27:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 19:30:35.460183
- Title: CEMFormer: Learning to Predict Driver Intentions from In-Cabin and
External Cameras via Spatial-Temporal Transformers
- Title(参考訳): CEMFormer:空間時間変換器による車内および外部カメラからのドライバー意図の予測
- Authors: Yunsheng Ma, Wenqian Ye, Xu Cao, Amr Abdelraouf, Kyungtae Han, Rohit
Gupta, Ziran Wang
- Abstract要約: CEM(Cross-View Episodic Memory Transformer)と呼ばれる新しいフレームワークを導入する。
CEMは統合メモリ表現を使用して、ドライバーの意図予測を改善する。
本稿では,運転コンテキストを補助的監視信号として組み込んで予測性能を向上させる新しいコンテキスト一貫性損失を提案する。
- 参考スコア(独自算出の注目度): 5.572431452586636
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Driver intention prediction seeks to anticipate drivers' actions by analyzing
their behaviors with respect to surrounding traffic environments. Existing
approaches primarily focus on late-fusion techniques, and neglect the
importance of maintaining consistency between predictions and prevailing
driving contexts. In this paper, we introduce a new framework called Cross-View
Episodic Memory Transformer (CEMFormer), which employs spatio-temporal
transformers to learn unified memory representations for an improved driver
intention prediction. Specifically, we develop a spatial-temporal encoder to
integrate information from both in-cabin and external camera views, along with
episodic memory representations to continuously fuse historical data.
Furthermore, we propose a novel context-consistency loss that incorporates
driving context as an auxiliary supervision signal to improve prediction
performance. Comprehensive experiments on the Brain4Cars dataset demonstrate
that CEMFormer consistently outperforms existing state-of-the-art methods in
driver intention prediction.
- Abstract(参考訳): ドライバーの意図予測は、周囲の交通環境に関する行動を分析することによってドライバーの行動を予測しようとするものである。
既存のアプローチは主にレイトフュージョン技術に注目し、予測と一般的な駆動コンテキスト間の一貫性を維持することの重要性を無視している。
本稿では,時空間トランスフォーマを使用してドライバの意図予測を改善するための統合メモリ表現を学習する,cross-view episodic memory transformer(cemformer)と呼ばれる新しいフレームワークを提案する。
具体的には,in-cabinとexternal cameraの双方からの情報とエピソディックメモリ表現を統合し,履歴データを連続的に融合する空間時空間エンコーダを開発した。
さらに,運転コンテキストを補助的監視信号として組み込んで予測性能を向上させる新しいコンテキスト一貫性損失を提案する。
Brain4Carsデータセットに関する包括的な実験は、CEMFormerがドライバーの意図予測において既存の最先端メソッドを一貫して上回っていることを示している。
関連論文リスト
- Looking Inside Out: Anticipating Driver Intent From Videos [20.501288763809036]
ドライバーの意図は、ドライバーが危険な操作を試みている場合に車両を取り巻く警告など、道路の安全を改善するために利用することができる。
本研究では,キャビン内および外部カメラデータを利用して,将来の運転行動を予測するためのSOTA(State-of-the-art)性能を改善する手法を提案する。
我々のモデルは、既存のアプローチよりも正確により早くドライバーの操縦を予測し、精度は87.5%、平均予測時間は4.35秒前である。
論文 参考訳(メタデータ) (2023-12-03T16:24:50Z) - Layout Sequence Prediction From Noisy Mobile Modality [53.49649231056857]
軌道予測は、自律運転やロボット工学などの応用における歩行者運動を理解する上で重要な役割を担っている。
現在の軌道予測モデルは、視覚的モダリティからの長い、完全な、正確に観察されたシーケンスに依存する。
本稿では,物体の障害物や視界外を,完全に視認できる軌跡を持つものと同等に扱う新しいアプローチであるLTrajDiffを提案する。
論文 参考訳(メタデータ) (2023-10-09T20:32:49Z) - Fusion-GRU: A Deep Learning Model for Future Bounding Box Prediction of
Traffic Agents in Risky Driving Videos [20.923004256768635]
Fusion-Gated Recurrent Unit (Fusion-GRU)は、将来のバウンディングボックスローカライゼーションのための新しいエンコーダデコーダアーキテクチャである。
提案手法は, ROL と HEV-I の2つの公開データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-08-12T18:35:59Z) - An End-to-End Vehicle Trajcetory Prediction Framework [3.7311680121118345]
将来の軌道の正確な予測は、以前の軌道に依存するだけでなく、近くの他の車両間の複雑な相互作用のシミュレーションにも依存する。
この問題に対処するために構築されたほとんどの最先端のネットワークは、軌跡をたどって容易に利用できると仮定している。
本稿では,生のビデオ入力を取り込み,将来の軌跡予測を出力する新しいエンドツーエンドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-19T15:42:03Z) - Cognitive Accident Prediction in Driving Scenes: A Multimodality
Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。
CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。
我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2022-12-19T11:43:02Z) - FBLNet: FeedBack Loop Network for Driver Attention Prediction [75.83518507463226]
非客観的運転経験はモデル化が難しい。
本稿では,運転経験蓄積過程をモデル化するFeedBack Loop Network (FBLNet)を提案する。
インクリメンタルな知識の指導のもと、私たちのモデルは入力画像から抽出されたCNN特徴とトランスフォーマー特徴を融合し、ドライバーの注意を予測します。
論文 参考訳(メタデータ) (2022-12-05T08:25:09Z) - AdvDO: Realistic Adversarial Attacks for Trajectory Prediction [87.96767885419423]
軌道予測は、自動運転車が正しく安全な運転行動を計画するために不可欠である。
我々は,現実的な対向軌道を生成するために,最適化に基づく対向攻撃フレームワークを考案する。
私たちの攻撃は、AVが道路を走り去るか、シミュレーション中に他の車両に衝突する可能性がある。
論文 参考訳(メタデータ) (2022-09-19T03:34:59Z) - DRIVE: Deep Reinforced Accident Anticipation with Visual Explanation [36.350348194248014]
交通事故予測は、ダッシュカムビデオから将来の事故の発生を正確にかつ迅速に予測することを目的としている。
既存のアプローチは通常、将来の事故が起こる前に、空間的および時間的文脈の手がかりを捉えることに重点を置いている。
本稿では, DRIVE という視覚表現を用いた深部強化型事故予測手法を提案する。
論文 参考訳(メタデータ) (2021-07-21T16:33:21Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z) - Implicit Latent Variable Model for Scene-Consistent Motion Forecasting [78.74510891099395]
本稿では,センサデータから直接複雑な都市交通のシーン一貫性のある動き予測を学習することを目的とする。
我々は、シーンを相互作用グラフとしてモデル化し、強力なグラフニューラルネットワークを用いてシーンの分散潜在表現を学習する。
論文 参考訳(メタデータ) (2020-07-23T14:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。