論文の概要: Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2312.08558v2
- Date: Tue, 15 Apr 2025 05:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:07:57.270808
- Title: Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction
- Title(参考訳): マルチモーダルエゴトラジェクトリ予測のためのドライバ視野の活用
- Authors: M. Eren Akbiyik, Nedko Savov, Danda Pani Paudel, Nikola Popovic, Christian Vater, Otmar Hilliges, Luc Van Gool, Xi Wang,
- Abstract要約: RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
- 参考スコア(独自算出の注目度): 69.29802752614677
- License:
- Abstract: Understanding drivers' decision-making is crucial for road safety. Although predicting the ego-vehicle's path is valuable for driver-assistance systems, existing methods mainly focus on external factors like other vehicles' motions, often neglecting the driver's attention and intent. To address this gap, we infer the ego-trajectory by integrating the driver's gaze and the surrounding scene. We introduce RouteFormer, a novel multimodal ego-trajectory prediction network combining GPS data, environmental context, and the driver's field-of-view, comprising first-person video and gaze fixations. We also present the Path Complexity Index (PCI), a new metric for trajectory complexity that enables a more nuanced evaluation of challenging scenarios. To tackle data scarcity and enhance diversity, we introduce GEM, a comprehensive dataset of urban driving scenarios enriched with synchronized driver field-of-view and gaze data. Extensive evaluations on GEM and DR(eye)VE demonstrate that RouteFormer significantly outperforms state-of-the-art methods, achieving notable improvements in prediction accuracy across diverse conditions. Ablation studies reveal that incorporating driver field-of-view data yields significantly better average displacement error, especially in challenging scenarios with high PCI scores, underscoring the importance of modeling driver attention. All data and code are available at https://meakbiyik.github.io/routeformer.
- Abstract(参考訳): ドライバーの意思決定を理解することは道路安全にとって不可欠である。
エゴ車両の進路を予測することは運転支援システムにとって価値があるが、既存の手法は主に他の車両の動きのような外部要因に焦点を当てており、運転者の注意や意図を無視することが多い。
このギャップに対処するために、運転者の視線と周囲のシーンを統合することで、エゴ軌道を推定する。
我々は,GPSデータ,環境コンテキスト,運転者の視野を組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるRouteFormerを紹介した。
また,パス複雑度指数(Path Complexity Index, PCI)という,難解なシナリオのより微妙な評価を可能にするトラジェクトリ複雑性の新しい指標も提示する。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオの包括的データセットであるGEMを導入する。
GEMとDR(eye)VEの広範囲な評価により、RouteFormerは最先端の手法よりも優れており、様々な条件で予測精度が顕著に向上していることが示された。
アブレーション研究では、特に高いPCIスコアを持つ挑戦シナリオにおいて、ドライバーフィールド・オブ・ビューのデータを組み込むことで、平均変位誤差が大幅に向上し、運転者の注意をモデル化することの重要性が強調されている。
すべてのデータとコードはhttps://meakbiyik.github.io/routeformer.comで入手できる。
関連論文リスト
- LMT-Net: Lane Model Transformer Network for Automated HD Mapping from Sparse Vehicle Observations [11.395749549636868]
Lane Model Transformer Network (LMT-Net) は、エンコーダとデコーダのニューラルネットワークアーキテクチャであり、ポリリン符号化を実行し、レーンペアとその接続性を予測する。
我々は、複数の車両観測と、地上真実(GT)としての人間のアノテーションからなる内部データセット上でのLMT-Netの性能を評価する。
論文 参考訳(メタデータ) (2024-09-19T02:14:35Z) - MetaFollower: Adaptable Personalized Autonomous Car Following [63.90050686330677]
適応型パーソナライズされた自動車追従フレームワークであるMetaFollowerを提案する。
まず,モデルに依存しないメタラーニング(MAML)を用いて,様々なCFイベントから共通運転知識を抽出する。
さらに、Long Short-Term Memory (LSTM) と Intelligent Driver Model (IDM) を組み合わせて、時間的不均一性を高い解釈性で反映する。
論文 参考訳(メタデータ) (2024-06-23T15:30:40Z) - SCOUT+: Towards Practical Task-Driven Drivers' Gaze Prediction [12.246649738388388]
SCOUT+はドライバーの視線予測のためのタスクおよびコンテキスト認識モデルである。
DR(eye)VEとBDD-Aの2つのデータセットでモデルを評価する。
論文 参考訳(メタデータ) (2024-04-12T18:29:10Z) - More Than Routing: Joint GPS and Route Modeling for Refine Trajectory
Representation Learning [26.630640299709114]
本稿では,JGRMという自己監督技術に基づく共同GPSとルートモデリングを提案する。
我々は2つのエンコーダを開発し、それぞれルートとGPSの軌跡を表現できるように調整した。
2つのモードからの表現は、モーダル間情報相互作用のための共有変換器に入力される。
論文 参考訳(メタデータ) (2024-02-25T18:27:25Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - FollowNet: A Comprehensive Benchmark for Car-Following Behavior Modeling [20.784555362703294]
自動車追従行動モデリングのための公開ベンチマークデータセットを構築した。
ベンチマークは、5つの公共運転データセットから抽出された80K以上のカーフォローイベントで構成されている。
以上の結果から, DDPGに基づくモデルでは, 間隔の低いMSEと競合する結果が得られた。
論文 参考訳(メタデータ) (2023-05-25T08:59:26Z) - OpenDriver: An Open-Road Driver State Detection Dataset [13.756530418314227]
本稿では,運転状態検出のための大規模マルチモーダル運転データセット OpenDriver を提案する。
OpenDriverは合計3,278回の運転で、信号収集期間は約4,600時間である。
論文 参考訳(メタデータ) (2023-04-09T10:08:38Z) - SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous
Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。
多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。
我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2021-06-21T13:55:57Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。