論文の概要: G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving
- arxiv url: http://arxiv.org/abs/2312.08558v1
- Date: Wed, 13 Dec 2023 23:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:32:29.471584
- Title: G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving
- Title(参考訳): G-MEMP: 運転時のマルチモーダルエゴ運動予測
- Authors: M. Eren Akbiyik, Nedko Savov, Danda Pani Paudel, Nikola Popovic,
Christian Vater, Otmar Hilliges, Luc Van Gool, Xi Wang
- Abstract要約: 我々は、視線データを用いて、運転者の車両のエゴ軌道を推定することに集中する。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるG-MEMPを開発する。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 71.9040410238973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the decision-making process of drivers is one of the keys to
ensuring road safety. While the driver intent and the resulting ego-motion
trajectory are valuable in developing driver-assistance systems, existing
methods mostly focus on the motions of other vehicles. In contrast, we focus on
inferring the ego trajectory of a driver's vehicle using their gaze data. For
this purpose, we first collect a new dataset, GEM, which contains high-fidelity
ego-motion videos paired with drivers' eye-tracking data and GPS coordinates.
Next, we develop G-MEMP, a novel multimodal ego-trajectory prediction network
that combines GPS and video input with gaze data. We also propose a new metric
called Path Complexity Index (PCI) to measure the trajectory complexity. We
perform extensive evaluations of the proposed method on both GEM and DR(eye)VE,
an existing benchmark dataset. The results show that G-MEMP significantly
outperforms state-of-the-art methods in both benchmarks. Furthermore, ablation
studies demonstrate over 20% improvement in average displacement using gaze
data, particularly in challenging driving scenarios with a high PCI. The data,
code, and models can be found at https://eth-ait.github.io/g-memp/.
- Abstract(参考訳): ドライバーの意思決定プロセスを理解することは、道路安全を確保する鍵のひとつだ。
ドライバーの意図と結果として生じるエゴモーションの軌跡は、運転支援システムの開発に有用であるが、既存の手法は主に他の車両の動きに焦点を当てている。
対照的に,視線データを用いて運転者の車両の自走軌跡を推定することに注力する。
この目的のために、私たちはまず、ドライバーの視線追跡データとGPS座標を組み合わせた高忠実なエゴモーションビデオを含む新しいデータセット、GEMを収集します。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークG-MEMPを開発する。
また,軌道の複雑度を測定するため,パス複雑度指数(PCI)と呼ばれる新しい指標を提案する。
本稿では,既存のベンチマークデータセットであるGEMとDR(eye)VEについて,提案手法の広範な評価を行う。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
さらに、アブレーション研究は、特にPCIの高い運転シナリオにおいて、視線データを用いた平均変位率を20%以上改善することを示した。
データ、コード、モデルはhttps://eth-ait.github.io/g-memp/で確認できる。
関連論文リスト
- More Than Routing: Joint GPS and Route Modeling for Refine Trajectory
Representation Learning [26.630640299709114]
本稿では,JGRMという自己監督技術に基づく共同GPSとルートモデリングを提案する。
我々は2つのエンコーダを開発し、それぞれルートとGPSの軌跡を表現できるように調整した。
2つのモードからの表現は、モーダル間情報相互作用のための共有変換器に入力される。
論文 参考訳(メタデータ) (2024-02-25T18:27:25Z) - DriveLM: Driving with Graph Visual Question Answering [61.66819076674662]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - FollowNet: A Comprehensive Benchmark for Car-Following Behavior Modeling [20.784555362703294]
自動車追従行動モデリングのための公開ベンチマークデータセットを構築した。
ベンチマークは、5つの公共運転データセットから抽出された80K以上のカーフォローイベントで構成されている。
以上の結果から, DDPGに基づくモデルでは, 間隔の低いMSEと競合する結果が得られた。
論文 参考訳(メタデータ) (2023-05-25T08:59:26Z) - Inverting the Fundamental Diagram and Forecasting Boundary Conditions:
How Machine Learning Can Improve Macroscopic Models for Traffic Flow [0.0]
高速道路を走行する車両のフラックスと速度のデータを,固定センサで収集し,車線および車種別に分類したデータセットについて検討する。
1) 渋滞がセンサの下に現れる場合, 2) 今後センサの下に通過する車両の総量を推定する。
これらの情報片は、センサ間のトラフィックフローのダイナミクスを記述したLWRベースの1次1次マルチクラスモデルの精度を向上させるために使用される。
論文 参考訳(メタデータ) (2023-03-21T11:07:19Z) - SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous
Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。
多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。
我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2021-06-21T13:55:57Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - Dynamic Fusion Module Evolves Drivable Area and Road Anomaly Detection:
A Benchmark and Algorithms [16.417299198546168]
移動ロボットにとって,乾燥領域と道路異常の同時検出は非常に重要である。
本稿では,まず,地上移動ロボットの乾性領域と道路異常検出ベンチマークを構築した。
本稿では,既存のデータ・フュージョン・ネットワークに容易にデプロイ可能なdynamic fusion module (dfm) と呼ばれる新しいモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-03T14:38:27Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - GISNet: Graph-Based Information Sharing Network For Vehicle Trajectory
Prediction [6.12727713172576]
Google、Uber、DiDiなどのAI指向企業は、より正確な車両軌道予測アルゴリズムを調査している。
本稿では,対象車両とその周辺車両間の情報共有を可能にする新しいグラフベース情報共有ネットワーク(GISNet)を提案する。
論文 参考訳(メタデータ) (2020-03-22T03:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。