論文の概要: G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving
- arxiv url: http://arxiv.org/abs/2312.08558v1
- Date: Wed, 13 Dec 2023 23:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:32:29.471584
- Title: G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving
- Title(参考訳): G-MEMP: 運転時のマルチモーダルエゴ運動予測
- Authors: M. Eren Akbiyik, Nedko Savov, Danda Pani Paudel, Nikola Popovic,
Christian Vater, Otmar Hilliges, Luc Van Gool, Xi Wang
- Abstract要約: 我々は、視線データを用いて、運転者の車両のエゴ軌道を推定することに集中する。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるG-MEMPを開発する。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 71.9040410238973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the decision-making process of drivers is one of the keys to
ensuring road safety. While the driver intent and the resulting ego-motion
trajectory are valuable in developing driver-assistance systems, existing
methods mostly focus on the motions of other vehicles. In contrast, we focus on
inferring the ego trajectory of a driver's vehicle using their gaze data. For
this purpose, we first collect a new dataset, GEM, which contains high-fidelity
ego-motion videos paired with drivers' eye-tracking data and GPS coordinates.
Next, we develop G-MEMP, a novel multimodal ego-trajectory prediction network
that combines GPS and video input with gaze data. We also propose a new metric
called Path Complexity Index (PCI) to measure the trajectory complexity. We
perform extensive evaluations of the proposed method on both GEM and DR(eye)VE,
an existing benchmark dataset. The results show that G-MEMP significantly
outperforms state-of-the-art methods in both benchmarks. Furthermore, ablation
studies demonstrate over 20% improvement in average displacement using gaze
data, particularly in challenging driving scenarios with a high PCI. The data,
code, and models can be found at https://eth-ait.github.io/g-memp/.
- Abstract(参考訳): ドライバーの意思決定プロセスを理解することは、道路安全を確保する鍵のひとつだ。
ドライバーの意図と結果として生じるエゴモーションの軌跡は、運転支援システムの開発に有用であるが、既存の手法は主に他の車両の動きに焦点を当てている。
対照的に,視線データを用いて運転者の車両の自走軌跡を推定することに注力する。
この目的のために、私たちはまず、ドライバーの視線追跡データとGPS座標を組み合わせた高忠実なエゴモーションビデオを含む新しいデータセット、GEMを収集します。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークG-MEMPを開発する。
また,軌道の複雑度を測定するため,パス複雑度指数(PCI)と呼ばれる新しい指標を提案する。
本稿では,既存のベンチマークデータセットであるGEMとDR(eye)VEについて,提案手法の広範な評価を行う。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
さらに、アブレーション研究は、特にPCIの高い運転シナリオにおいて、視線データを用いた平均変位率を20%以上改善することを示した。
データ、コード、モデルはhttps://eth-ait.github.io/g-memp/で確認できる。
関連論文リスト
- LMT-Net: Lane Model Transformer Network for Automated HD Mapping from Sparse Vehicle Observations [11.395749549636868]
Lane Model Transformer Network (LMT-Net) は、エンコーダとデコーダのニューラルネットワークアーキテクチャであり、ポリリン符号化を実行し、レーンペアとその接続性を予測する。
我々は、複数の車両観測と、地上真実(GT)としての人間のアノテーションからなる内部データセット上でのLMT-Netの性能を評価する。
論文 参考訳(メタデータ) (2024-09-19T02:14:35Z) - MetaFollower: Adaptable Personalized Autonomous Car Following [63.90050686330677]
適応型パーソナライズされた自動車追従フレームワークであるMetaFollowerを提案する。
まず,モデルに依存しないメタラーニング(MAML)を用いて,様々なCFイベントから共通運転知識を抽出する。
さらに、Long Short-Term Memory (LSTM) と Intelligent Driver Model (IDM) を組み合わせて、時間的不均一性を高い解釈性で反映する。
論文 参考訳(メタデータ) (2024-06-23T15:30:40Z) - SCOUT+: Towards Practical Task-Driven Drivers' Gaze Prediction [12.246649738388388]
SCOUT+はドライバーの視線予測のためのタスクおよびコンテキスト認識モデルである。
DR(eye)VEとBDD-Aの2つのデータセットでモデルを評価する。
論文 参考訳(メタデータ) (2024-04-12T18:29:10Z) - More Than Routing: Joint GPS and Route Modeling for Refine Trajectory
Representation Learning [26.630640299709114]
本稿では,JGRMという自己監督技術に基づく共同GPSとルートモデリングを提案する。
我々は2つのエンコーダを開発し、それぞれルートとGPSの軌跡を表現できるように調整した。
2つのモードからの表現は、モーダル間情報相互作用のための共有変換器に入力される。
論文 参考訳(メタデータ) (2024-02-25T18:27:25Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - FollowNet: A Comprehensive Benchmark for Car-Following Behavior Modeling [20.784555362703294]
自動車追従行動モデリングのための公開ベンチマークデータセットを構築した。
ベンチマークは、5つの公共運転データセットから抽出された80K以上のカーフォローイベントで構成されている。
以上の結果から, DDPGに基づくモデルでは, 間隔の低いMSEと競合する結果が得られた。
論文 参考訳(メタデータ) (2023-05-25T08:59:26Z) - OpenDriver: An Open-Road Driver State Detection Dataset [13.756530418314227]
本稿では,運転状態検出のための大規模マルチモーダル運転データセット OpenDriver を提案する。
OpenDriverは合計3,278回の運転で、信号収集期間は約4,600時間である。
論文 参考訳(メタデータ) (2023-04-09T10:08:38Z) - SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous
Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。
多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。
我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2021-06-21T13:55:57Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。