論文の概要: Data Limitations for Modeling Top-Down Effects on Drivers' Attention
- arxiv url: http://arxiv.org/abs/2404.08749v1
- Date: Fri, 12 Apr 2024 18:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 18:52:17.703718
- Title: Data Limitations for Modeling Top-Down Effects on Drivers' Attention
- Title(参考訳): 運転者の注意に対するトップダウン効果のモデル化のためのデータ制限
- Authors: Iuliia Kotseruba, John K. Tsotsos,
- Abstract要約: 運転は視覚運動のタスクであり、つまり、ドライバーが見ているものと何をするかの間には関連がある。
ドライバーの視線の一部のモデルは、ドライバーの行動によるトップダウン効果を考慮に入れている。
大多数は人間の視線と運転映像のボトムアップ相関しか学ばない。
- 参考スコア(独自算出の注目度): 12.246649738388388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driving is a visuomotor task, i.e., there is a connection between what drivers see and what they do. While some models of drivers' gaze account for top-down effects of drivers' actions, the majority learn only bottom-up correlations between human gaze and driving footage. The crux of the problem is lack of public data with annotations that could be used to train top-down models and evaluate how well models of any kind capture effects of task on attention. As a result, top-down models are trained and evaluated on private data and public benchmarks measure only the overall fit to human data. In this paper, we focus on data limitations by examining four large-scale public datasets, DR(eye)VE, BDD-A, MAAD, and LBW, used to train and evaluate algorithms for drivers' gaze prediction. We define a set of driving tasks (lateral and longitudinal maneuvers) and context elements (intersections and right-of-way) known to affect drivers' attention, augment the datasets with annotations based on the said definitions, and analyze the characteristics of data recording and processing pipelines w.r.t. capturing what the drivers see and do. In sum, the contributions of this work are: 1) quantifying biases of the public datasets, 2) examining performance of the SOTA bottom-up models on subsets of the data involving non-trivial drivers' actions, 3) linking shortcomings of the bottom-up models to data limitations, and 4) recommendations for future data collection and processing. The new annotations and code for reproducing the results is available at https://github.com/ykotseruba/SCOUT.
- Abstract(参考訳): 運転は視覚運動のタスクであり、つまり、ドライバーが見ているものと何をするかの間には関連がある。
一部のドライバーの視線モデルではドライバーの行動の上位ダウン効果が考慮されているが、大多数は人間の視線と運転映像のボトムアップ相関しか学ばない。
問題は、トップダウンモデルをトレーニングしたり、タスクのどの種類のモデルが注意を向けるかを評価するのに使えるアノテーションが、公開データの欠如にあることだ。
その結果、トップダウンモデルはプライベートデータに基づいてトレーニングされ、評価され、公開ベンチマークは人間のデータに対する全体的な適合度だけを測定する。
本稿では,ドライバの視線予測のためのアルゴリズムのトレーニングと評価に使用する,大規模公開データセットDR(eye)VE,BDD-A,MAAD,LBWの4つを対象とするデータ制限に着目した。
運転者の注意に影響を及ぼすことで知られる運転タスク(横方向と縦方向の操作)とコンテキスト要素(断面と右方向)のセットを定義し、その定義に基づいてアノテーションでデータセットを増強し、ドライバが見ていることをキャプチャするデータ記録および処理パイプラインの特性を分析する。
まとめると、この作品の貢献は以下のとおりである。
1) 公開データセットのバイアスの定量化
2)非自明な運転者の行動を含むデータのサブセット上でのSOTAボトムアップモデルの性能について検討した。
3)ボトムアップモデルの欠点をデータ制限にリンクすること。
4) 今後のデータ収集と処理の推奨。
結果の再生のための新しいアノテーションとコードはhttps://github.com/ykotseruba/SCOUT.comで公開されている。
関連論文リスト
- SCOUT+: Towards Practical Task-Driven Drivers' Gaze Prediction [12.246649738388388]
SCOUT+はドライバーの視線予測のためのタスクおよびコンテキスト認識モデルである。
DR(eye)VEとBDD-Aの2つのデータセットでモデルを評価する。
論文 参考訳(メタデータ) (2024-04-12T18:29:10Z) - Situation Awareness for Driver-Centric Driving Style Adaptation [3.568617847600189]
本稿では,車両データに基づいて事前学習した視覚特徴エンコーダに基づく状況認識型運転スタイルモデルを提案する。
実験の結果,提案手法は静的な運転スタイルを著しく上回り,高い状況クラスタを形成していることがわかった。
論文 参考訳(メタデータ) (2024-03-28T17:19:16Z) - G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving [71.9040410238973]
我々は、視線データを用いて、運転者の車両のエゴ軌道を推定することに集中する。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるG-MEMPを開発する。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - Understanding and Modeling the Effects of Task and Context on Drivers' Gaze Allocation [12.246649738388388]
我々は,ドライバーの視線予測を明示的な行動と文脈情報で調節する新しいモデルを開発した。
我々は、DR(eye)VEで使用されるデータ処理パイプラインを補正し、記録された視線データのノイズを低減する。
我々は、サリエンシとドライバの視線予測のためのベースラインモデルとSOTAモデルをベンチマークし、新しいアノテーションを使用して、異なるタスクを含むシナリオにおけるパフォーマンスの変化を分析する。
論文 参考訳(メタデータ) (2023-10-13T17:38:41Z) - FBLNet: FeedBack Loop Network for Driver Attention Prediction [75.83518507463226]
非客観的運転経験はモデル化が難しい。
本稿では,運転経験蓄積過程をモデル化するFeedBack Loop Network (FBLNet)を提案する。
インクリメンタルな知識の指導のもと、私たちのモデルは入力画像から抽出されたCNN特徴とトランスフォーマー特徴を融合し、ドライバーの注意を予測します。
論文 参考訳(メタデータ) (2022-12-05T08:25:09Z) - CoCAtt: A Cognitive-Conditioned Driver Attention Dataset (Supplementary
Material) [31.888206001447625]
運転注意予測は、ハイリスクイベントの緩和と防止に重要な役割を果たす。
我々は新しいドライバーアテンションデータセットであるCoCAttを提示する。
CoCAttは、自律性レベル、アイトラッカーの解像度、運転シナリオといった面で、最大かつ最も多様なドライバー注意データセットである。
論文 参考訳(メタデータ) (2022-07-08T17:35:17Z) - Predicting Take-over Time for Autonomous Driving with Real-World Data:
Robust Data Augmentation, Models, and Evaluation [11.007092387379076]
我々は、運転者向けカメラビューで動作するコンピュータビジョンアルゴリズムによって作成される中高レベルの機能で動作するテイクオーバー時間(TOT)モデルを開発し、訓練する。
拡張データでサポートされたTOTモデルを用いて,遅延なく連続的なテイクオーバー時間を推定できることを示す。
論文 参考訳(メタデータ) (2021-07-27T16:39:50Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Learning Accurate and Human-Like Driving using Semantic Maps and
Attention [152.48143666881418]
本稿では,より正確かつ人間らしく運転できるエンド・ツー・エンド駆動モデルについて検討する。
HERE Technologiesのセマンティックマップとビジュアルマップを活用し、既存のDrive360データセットを拡張します。
私たちのモデルは、実世界の運転データ60時間3000kmのDrive360+HEREデータセットでトレーニングされ、評価されています。
論文 参考訳(メタデータ) (2020-07-10T22:25:27Z) - Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction [57.56466850377598]
視覚データに対する推論は、ロボティクスとビジョンベースのアプリケーションにとって望ましい能力である。
本稿では,歩行者の意図を推論するため,現場の異なる物体間の関係を明らかにするためのグラフ上でのフレームワークを提案する。
歩行者の意図は、通りを横切る、あるいは横断しない将来の行動として定義され、自動運転車にとって非常に重要な情報である。
論文 参考訳(メタデータ) (2020-02-20T18:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。