Fugu-MT 論文翻訳(概要): G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving

論文の概要: G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving

arxiv url: http://arxiv.org/abs/2312.08558v1
Date: Wed, 13 Dec 2023 23:06:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-16 00:32:29.471584
Title: G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving
Title（参考訳）: G-MEMP: 運転時のマルチモーダルエゴ運動予測
Authors: M. Eren Akbiyik, Nedko Savov, Danda Pani Paudel, Nikola Popovic, Christian Vater, Otmar Hilliges, Luc Van Gool, Xi Wang
Abstract要約: 我々は、視線データを用いて、運転者の車両のエゴ軌道を推定することに集中する。次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるG-MEMPを開発する。その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
参考スコア（独自算出の注目度）: 71.9040410238973
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding the decision-making process of drivers is one of the keys to ensuring road safety. While the driver intent and the resulting ego-motion trajectory are valuable in developing driver-assistance systems, existing methods mostly focus on the motions of other vehicles. In contrast, we focus on inferring the ego trajectory of a driver's vehicle using their gaze data. For this purpose, we first collect a new dataset, GEM, which contains high-fidelity ego-motion videos paired with drivers' eye-tracking data and GPS coordinates. Next, we develop G-MEMP, a novel multimodal ego-trajectory prediction network that combines GPS and video input with gaze data. We also propose a new metric called Path Complexity Index (PCI) to measure the trajectory complexity. We perform extensive evaluations of the proposed method on both GEM and DR(eye)VE, an existing benchmark dataset. The results show that G-MEMP significantly outperforms state-of-the-art methods in both benchmarks. Furthermore, ablation studies demonstrate over 20% improvement in average displacement using gaze data, particularly in challenging driving scenarios with a high PCI. The data, code, and models can be found at https://eth-ait.github.io/g-memp/.
Abstract（参考訳）: ドライバーの意思決定プロセスを理解することは、道路安全を確保する鍵のひとつだ。ドライバーの意図と結果として生じるエゴモーションの軌跡は、運転支援システムの開発に有用であるが、既存の手法は主に他の車両の動きに焦点を当てている。対照的に,視線データを用いて運転者の車両の自走軌跡を推定することに注力する。この目的のために、私たちはまず、ドライバーの視線追跡データとGPS座標を組み合わせた高忠実なエゴモーションビデオを含む新しいデータセット、GEMを収集します。次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークG-MEMPを開発する。また,軌道の複雑度を測定するため,パス複雑度指数(PCI)と呼ばれる新しい指標を提案する。本稿では,既存のベンチマークデータセットであるGEMとDR(eye)VEについて,提案手法の広範な評価を行う。その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。さらに、アブレーション研究は、特にPCIの高い運転シナリオにおいて、視線データを用いた平均変位率を20%以上改善することを示した。データ、コード、モデルはhttps://eth-ait.github.io/g-memp/で確認できる。

関連論文リスト

Learning to Drive by Imitating Surrounding Vehicles [0.6612847014373572]
模倣学習は、複雑な交通環境をナビゲートするために自動運転車を訓練するための有望なアプローチである。本研究では, 周辺車両の観測軌道を利用することで, 模倣学習の促進を図るデータ強化戦略を提案する。我々は、nuPlanデータセット上で、最先端の学習ベースプランニング手法PLUTOを用いて、我々のアプローチを評価し、この拡張手法が複雑な運転シナリオの性能向上につながることを実証した。
論文参考訳（メタデータ） (2025-03-08T00:40:47Z)
Driver Assistance System Based on Multimodal Data Hazard Detection [0.0]
本稿では,マルチモーダル運転支援システムを提案する。道路状況映像、ドライバーの顔映像、音声データを統合して、インシデント認識の精度を高める。
論文参考訳（メタデータ） (2025-02-05T09:02:39Z)
LMT-Net: Lane Model Transformer Network for Automated HD Mapping from Sparse Vehicle Observations [11.395749549636868]
Lane Model Transformer Network (LMT-Net) は、エンコーダとデコーダのニューラルネットワークアーキテクチャであり、ポリリン符号化を実行し、レーンペアとその接続性を予測する。我々は、複数の車両観測と、地上真実(GT)としての人間のアノテーションからなる内部データセット上でのLMT-Netの性能を評価する。
論文参考訳（メタデータ） (2024-09-19T02:14:35Z)
MetaFollower: Adaptable Personalized Autonomous Car Following [63.90050686330677]
適応型パーソナライズされた自動車追従フレームワークであるMetaFollowerを提案する。まず,モデルに依存しないメタラーニング(MAML)を用いて,様々なCFイベントから共通運転知識を抽出する。さらに、Long Short-Term Memory (LSTM) と Intelligent Driver Model (IDM) を組み合わせて、時間的不均一性を高い解釈性で反映する。
論文参考訳（メタデータ） (2024-06-23T15:30:40Z)
SCOUT+: Towards Practical Task-Driven Drivers' Gaze Prediction [12.246649738388388]
SCOUT+はドライバーの視線予測のためのタスクおよびコンテキスト認識モデルである。 DR(eye)VEとBDD-Aの2つのデータセットでモデルを評価する。
論文参考訳（メタデータ） (2024-04-12T18:29:10Z)
More Than Routing: Joint GPS and Route Modeling for Refine Trajectory Representation Learning [26.630640299709114]
本稿では,JGRMという自己監督技術に基づく共同GPSとルートモデリングを提案する。我々は2つのエンコーダを開発し、それぞれルートとGPSの軌跡を表現できるように調整した。 2つのモードからの表現は、モーダル間情報相互作用のための共有変換器に入力される。
論文参考訳（メタデータ） (2024-02-25T18:27:25Z)
FENet: Focusing Enhanced Network for Lane Detection [0.0]
この研究は、Focusing Smpling、Partial Field of View Evaluation、Enhanced FPN Architecture、Directional IoU Lossで拡張されたネットワークのパイオニアである。実験では、均一なアプローチとは異なり、重要な遠隔の細部を強調しながら、集中サンプリング戦略を実証した。今後の方向性には、道路上のデータ収集や、補完的な2つのフレームワークの統合などが含まれる。
論文参考訳（メタデータ） (2023-12-28T17:52:09Z)
DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文参考訳（メタデータ） (2023-12-21T18:59:12Z)
Unsupervised Domain Adaptation for Self-Driving from Past Traversal Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。実世界のデータセットの実験では、大幅な改善が示されている。
論文参考訳（メタデータ） (2023-09-21T15:00:31Z)
AIDE: A Vision-Driven Multi-View, Multi-Modal, Multi-Tasking Dataset for Assistive Driving Perception [26.84439405241999]
本稿では,車内と車外の両方でコンテキスト情報を考察するAssIstive Driving pErceptionデータセット(AIDE)を提案する。 AIDEは3つの特徴を通して総合的なドライバー監視を容易にする。 2つの融合戦略を導入し、効果的なマルチストリーム/モーダル表現の学習に新たな洞察を与える。
論文参考訳（メタデータ） (2023-07-26T03:12:05Z)
FollowNet: A Comprehensive Benchmark for Car-Following Behavior Modeling [20.784555362703294]
自動車追従行動モデリングのための公開ベンチマークデータセットを構築した。ベンチマークは、5つの公共運転データセットから抽出された80K以上のカーフォローイベントで構成されている。以上の結果から, DDPGに基づくモデルでは, 間隔の低いMSEと競合する結果が得られた。
論文参考訳（メタデータ） (2023-05-25T08:59:26Z)
OpenDriver: An Open-Road Driver State Detection Dataset [13.756530418314227]
本稿では,運転状態検出のための大規模マルチモーダル運転データセット OpenDriver を提案する。 OpenDriverは合計3,278回の運転で、信号収集期間は約4,600時間である。
論文参考訳（メタデータ） (2023-04-09T10:08:38Z)
FBLNet: FeedBack Loop Network for Driver Attention Prediction [50.936478241688114]
非客観的運転経験のモデル化は困難であり,既存手法では運転経験蓄積手順を模擬する機構が欠如している。本稿では,運転経験蓄積手順をモデル化するFeedBack Loop Network (FBLNet)を提案する。提案モデルでは,既存の手法に対して強い優位性を示し,2つのドライバー注意ベンチマークデータセットの性能向上を実現している。
論文参考訳（メタデータ） (2022-12-05T08:25:09Z)
Federated Deep Learning Meets Autonomous Vehicle Perception: Design and Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。 FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文参考訳（メタデータ） (2022-06-03T23:55:45Z)
Euro-PVI: Pedestrian Vehicle Interactions in Dense Urban Centers [126.81938540470847]
歩行者と自転車の軌跡のデータセットであるEuro-PVIを提案する。本研究では,都市環境におけるエージェント間のマルチモーダル共有潜在空間を表現的に学習する共同推論モデルを開発する。我々は,エゴ車と歩行者(自転車)の相互作用を正確に予測するために捉えることの重要性を示すnuScenesとEuro-PVIデータセット上での成果を達成した。
論文参考訳（メタデータ） (2021-06-22T15:40:21Z)
SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文参考訳（メタデータ） (2021-06-21T13:55:57Z)
Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文参考訳（メタデータ） (2021-04-19T11:48:13Z)
Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文参考訳（メタデータ） (2021-04-16T17:58:56Z)
Detecting 32 Pedestrian Attributes for Autonomous Vehicles [103.87351701138554]
本稿では、歩行者を共同で検出し、32の歩行者属性を認識するという課題に対処する。本稿では,複合フィールドフレームワークを用いたマルチタスク学習(MTL)モデルを提案する。競合検出と属性認識の結果と,より安定したMTLトレーニングを示す。
論文参考訳（メタデータ） (2020-12-04T15:10:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。