論文の概要: CEMFormer: Learning to Predict Driver Intentions from In-Cabin and
External Cameras via Spatial-Temporal Transformers
- arxiv url: http://arxiv.org/abs/2305.07840v1
- Date: Sat, 13 May 2023 05:27:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 19:30:35.460183
- Title: CEMFormer: Learning to Predict Driver Intentions from In-Cabin and
External Cameras via Spatial-Temporal Transformers
- Title(参考訳): CEMFormer:空間時間変換器による車内および外部カメラからのドライバー意図の予測
- Authors: Yunsheng Ma, Wenqian Ye, Xu Cao, Amr Abdelraouf, Kyungtae Han, Rohit
Gupta, Ziran Wang
- Abstract要約: CEM(Cross-View Episodic Memory Transformer)と呼ばれる新しいフレームワークを導入する。
CEMは統合メモリ表現を使用して、ドライバーの意図予測を改善する。
本稿では,運転コンテキストを補助的監視信号として組み込んで予測性能を向上させる新しいコンテキスト一貫性損失を提案する。
- 参考スコア(独自算出の注目度): 5.572431452586636
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Driver intention prediction seeks to anticipate drivers' actions by analyzing
their behaviors with respect to surrounding traffic environments. Existing
approaches primarily focus on late-fusion techniques, and neglect the
importance of maintaining consistency between predictions and prevailing
driving contexts. In this paper, we introduce a new framework called Cross-View
Episodic Memory Transformer (CEMFormer), which employs spatio-temporal
transformers to learn unified memory representations for an improved driver
intention prediction. Specifically, we develop a spatial-temporal encoder to
integrate information from both in-cabin and external camera views, along with
episodic memory representations to continuously fuse historical data.
Furthermore, we propose a novel context-consistency loss that incorporates
driving context as an auxiliary supervision signal to improve prediction
performance. Comprehensive experiments on the Brain4Cars dataset demonstrate
that CEMFormer consistently outperforms existing state-of-the-art methods in
driver intention prediction.
- Abstract(参考訳): ドライバーの意図予測は、周囲の交通環境に関する行動を分析することによってドライバーの行動を予測しようとするものである。
既存のアプローチは主にレイトフュージョン技術に注目し、予測と一般的な駆動コンテキスト間の一貫性を維持することの重要性を無視している。
本稿では,時空間トランスフォーマを使用してドライバの意図予測を改善するための統合メモリ表現を学習する,cross-view episodic memory transformer(cemformer)と呼ばれる新しいフレームワークを提案する。
具体的には,in-cabinとexternal cameraの双方からの情報とエピソディックメモリ表現を統合し,履歴データを連続的に融合する空間時空間エンコーダを開発した。
さらに,運転コンテキストを補助的監視信号として組み込んで予測性能を向上させる新しいコンテキスト一貫性損失を提案する。
Brain4Carsデータセットに関する包括的な実験は、CEMFormerがドライバーの意図予測において既存の最先端メソッドを一貫して上回っていることを示している。
関連論文リスト
- FollowGen: A Scaled Noise Conditional Diffusion Model for Car-Following Trajectory Prediction [9.2729178775419]
本研究では,自動車追従軌道予測のためのスケールドノイズ条件拡散モデルを提案する。
車両間の詳細な相互作用と自動車追従ダイナミクスを生成フレームワークに統合し、予測された軌跡の精度と妥当性を向上させる。
種々の実世界の運転シナリオに関する実験結果は,提案手法の最先端性能と堅牢性を示すものである。
論文 参考訳(メタデータ) (2024-11-23T23:13:45Z) - AHMF: Adaptive Hybrid-Memory-Fusion Model for Driver Attention Prediction [14.609639142688035]
本稿では,AHMF(Adaptive Hybrid-Memory-Fusion)ドライバの注意予測モデルを提案する。
本モデルは、まず、現在のシーンにおける特定の危険刺激に関する情報を符号化し、作業記憶を形成する。その後、長期記憶から同様の状況体験を適応的に回収し、最終的な予測を行う。
論文 参考訳(メタデータ) (2024-07-24T17:19:58Z) - Crossfusor: A Cross-Attention Transformer Enhanced Conditional Diffusion Model for Car-Following Trajectory Prediction [10.814758830775727]
本研究では,自動車追従軌道予測のためのクロスアテンショントランスフォーマー拡張拡散モデル (Crossfusor) を提案する。
車両間の詳細な相互作用と自動車追従ダイナミクスを堅牢な拡散フレームワークに統合し、予測された軌道の精度と現実性を改善する。
NGSIMデータセットの実験結果から、クロスファザーは特に長期予測において最先端のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-17T17:35:47Z) - Layout Sequence Prediction From Noisy Mobile Modality [53.49649231056857]
軌道予測は、自律運転やロボット工学などの応用における歩行者運動を理解する上で重要な役割を担っている。
現在の軌道予測モデルは、視覚的モダリティからの長い、完全な、正確に観察されたシーケンスに依存する。
本稿では,物体の障害物や視界外を,完全に視認できる軌跡を持つものと同等に扱う新しいアプローチであるLTrajDiffを提案する。
論文 参考訳(メタデータ) (2023-10-09T20:32:49Z) - Cognitive Accident Prediction in Driving Scenes: A Multimodality
Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。
CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。
我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2022-12-19T11:43:02Z) - FBLNet: FeedBack Loop Network for Driver Attention Prediction [75.83518507463226]
非客観的運転経験はモデル化が難しい。
本稿では,運転経験蓄積過程をモデル化するFeedBack Loop Network (FBLNet)を提案する。
インクリメンタルな知識の指導のもと、私たちのモデルは入力画像から抽出されたCNN特徴とトランスフォーマー特徴を融合し、ドライバーの注意を予測します。
論文 参考訳(メタデータ) (2022-12-05T08:25:09Z) - AdvDO: Realistic Adversarial Attacks for Trajectory Prediction [87.96767885419423]
軌道予測は、自動運転車が正しく安全な運転行動を計画するために不可欠である。
我々は,現実的な対向軌道を生成するために,最適化に基づく対向攻撃フレームワークを考案する。
私たちの攻撃は、AVが道路を走り去るか、シミュレーション中に他の車両に衝突する可能性がある。
論文 参考訳(メタデータ) (2022-09-19T03:34:59Z) - DRIVE: Deep Reinforced Accident Anticipation with Visual Explanation [36.350348194248014]
交通事故予測は、ダッシュカムビデオから将来の事故の発生を正確にかつ迅速に予測することを目的としている。
既存のアプローチは通常、将来の事故が起こる前に、空間的および時間的文脈の手がかりを捉えることに重点を置いている。
本稿では, DRIVE という視覚表現を用いた深部強化型事故予測手法を提案する。
論文 参考訳(メタデータ) (2021-07-21T16:33:21Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z) - Implicit Latent Variable Model for Scene-Consistent Motion Forecasting [78.74510891099395]
本稿では,センサデータから直接複雑な都市交通のシーン一貫性のある動き予測を学習することを目的とする。
我々は、シーンを相互作用グラフとしてモデル化し、強力なグラフニューラルネットワークを用いてシーンの分散潜在表現を学習する。
論文 参考訳(メタデータ) (2020-07-23T14:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。