論文の概要: Understanding and Modeling the Effects of Task and Context on Drivers' Gaze Allocation
- arxiv url: http://arxiv.org/abs/2310.09275v3
- Date: Fri, 12 Apr 2024 18:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:37:19.034278
- Title: Understanding and Modeling the Effects of Task and Context on Drivers' Gaze Allocation
- Title(参考訳): ドライバーの視線配置に及ぼすタスクとコンテキストの影響の理解とモデル化
- Authors: Iuliia Kotseruba, John K. Tsotsos,
- Abstract要約: 我々は,ドライバーの視線予測を明示的な行動と文脈情報で調節する新しいモデルを開発した。
我々は、DR(eye)VEで使用されるデータ処理パイプラインを補正し、記録された視線データのノイズを低減する。
我々は、サリエンシとドライバの視線予測のためのベースラインモデルとSOTAモデルをベンチマークし、新しいアノテーションを使用して、異なるタスクを含むシナリオにおけるパフォーマンスの変化を分析する。
- 参考スコア(独自算出の注目度): 12.246649738388388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To further advance driver monitoring and assistance systems, it is important to understand how drivers allocate their attention, in other words, where do they tend to look and why. Traditionally, factors affecting human visual attention have been divided into bottom-up (involuntary attraction to salient regions) and top-down (driven by the demands of the task being performed). Although both play a role in directing drivers' gaze, most of the existing models for drivers' gaze prediction apply techniques developed for bottom-up saliency and do not consider influences of the drivers' actions explicitly. Likewise, common driving attention benchmarks lack relevant annotations for drivers' actions and the context in which they are performed. Therefore, to enable analysis and modeling of these factors for drivers' gaze prediction, we propose the following: 1) we correct the data processing pipeline used in DR(eye)VE to reduce noise in the recorded gaze data; 2) we then add per-frame labels for driving task and context; 3) we benchmark a number of baseline and SOTA models for saliency and driver gaze prediction and use new annotations to analyze how their performance changes in scenarios involving different tasks; and, lastly, 4) we develop a novel model that modulates drivers' gaze prediction with explicit action and context information. While reducing noise in the DR(eye)VE gaze data improves results of all models, we show that using task information in our proposed model boosts performance even further compared to bottom-up models on the cleaned up data, both overall (by 24% KLD and 89% NSS) and on scenarios that involve performing safety-critical maneuvers and crossing intersections (by up to 10--30% KLD). Extended annotations and code are available at https://github.com/ykotseruba/SCOUT.
- Abstract(参考訳): ドライバーの監視・支援システムをさらに前進させるためには、ドライバーがどのように注意を割り当てるかを理解することが重要である。
伝統的に、人間の視覚的注意に影響を与える要因はボトムアップ(有能な地域への自発的な魅力)とトップダウン(実行中のタスクの要求によって引き起こされる)に分けられている。
両者はドライバーの視線を指示する役割を担っているが、既存のドライバーの視線予測のモデルのほとんどはボトムアップ・サリエンシーのために開発された技術を適用しており、ドライバーの行動の影響を明示的に考慮していない。
同様に、一般的な運転注意ベンチマークでは、運転者の行動や実行状況に関するアノテーションが欠落している。
そこで,運転者の視線予測のための因子の解析とモデル化を実現するために,以下のことを提案する。
1) DR(eye)VEで使用されるデータ処理パイプラインを補正し, 記録された視線データのノイズを低減する。
2) タスクとコンテキストを駆動するためのフレーム単位のラベルを追加する。
3) 正当性とドライバの視線予測のためのベースラインモデルとSOTAモデルをベンチマークし、新しいアノテーションを使用して、異なるタスクを含むシナリオにおけるパフォーマンスの変化を分析します。
4)明示的な行動と文脈情報を用いてドライバーの視線予測を変調する新しいモデルを開発する。
DR(eye)VEの視線データにおけるノイズの低減は,全モデルの結果を改善する一方で,提案モデルにおけるタスク情報の利用により,全体(24% KLDと89% NSS)および安全クリティカルな操作や交差点(最大10~30% KLD)の実行を含むシナリオにおいて,クリーンアップデータに対するボトムアップモデルと比較して,パフォーマンスがさらに向上することを示す。
拡張アノテーションとコードはhttps://github.com/ykotseruba/SCOUT.comで入手できる。
関連論文リスト
- Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Guiding Attention in End-to-End Driving Models [49.762868784033785]
模倣学習によって訓練された視覚ベースのエンドツーエンドの運転モデルは、自動運転のための安価なソリューションにつながる可能性がある。
トレーニング中に損失項を追加することにより、これらのモデルの注意を誘導し、運転品質を向上させる方法について検討する。
従来の研究とは対照的に,本手法では,テスト期間中にこれらの有意義なセマンティックマップを利用できない。
論文 参考訳(メタデータ) (2024-04-30T23:18:51Z) - SCOUT+: Towards Practical Task-Driven Drivers' Gaze Prediction [12.246649738388388]
SCOUT+はドライバーの視線予測のためのタスクおよびコンテキスト認識モデルである。
DR(eye)VEとBDD-Aの2つのデータセットでモデルを評価する。
論文 参考訳(メタデータ) (2024-04-12T18:29:10Z) - Data Limitations for Modeling Top-Down Effects on Drivers' Attention [12.246649738388388]
運転は視覚運動のタスクであり、つまり、ドライバーが見ているものと何をするかの間には関連がある。
ドライバーの視線の一部のモデルは、ドライバーの行動によるトップダウン効果を考慮に入れている。
大多数は人間の視線と運転映像のボトムアップ相関しか学ばない。
論文 参考訳(メタデータ) (2024-04-12T18:23:00Z) - G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving [71.9040410238973]
我々は、視線データを用いて、運転者の車両のエゴ軌道を推定することに集中する。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるG-MEMPを開発する。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - TOFG: A Unified and Fine-Grained Environment Representation in
Autonomous Driving [7.787762537147956]
自律運転では、軌道予測や運動計画といった多くの運転タスクにおいて、環境の正確な理解が重要な役割を果たす。
軌道予測と運動計画のための多くのデータ駆動モデルでは、車両間および車両間相互作用を分離的かつ逐次的に抽出する。
環境表現であるTOFG(Temporal Occupancy Flow Graph)を提案し、地図情報と車両軌跡を均質なデータ形式に統一する。
論文 参考訳(メタデータ) (2023-05-31T17:43:56Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - FBLNet: FeedBack Loop Network for Driver Attention Prediction [75.83518507463226]
非客観的運転経験はモデル化が難しい。
本稿では,運転経験蓄積過程をモデル化するFeedBack Loop Network (FBLNet)を提案する。
インクリメンタルな知識の指導のもと、私たちのモデルは入力画像から抽出されたCNN特徴とトランスフォーマー特徴を融合し、ドライバーの注意を予測します。
論文 参考訳(メタデータ) (2022-12-05T08:25:09Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z) - Where and What: Driver Attention-based Object Detection [13.5947650184579]
画素レベルとオブジェクトレベルのアテンション予測のギャップを埋める。
本フレームワークは,画素レベルとオブジェクトレベルの両方において,最先端の競合性能を実現する。
論文 参考訳(メタデータ) (2022-04-26T08:38:22Z) - SCOUT: Socially-COnsistent and UndersTandable Graph Attention Network
for Trajectory Prediction of Vehicles and VRUs [0.0]
SCOUTは、グラフとしてシーンの柔軟で汎用的な表現を使用する新しい注意ベースのグラフニューラルネットワークです。
我々は3つの異なる注意メカニズムを探索し,鳥眼視と車載都市データを用いてそのスキームをテストする。
RounDデータセットの全く新しいシナリオでテストすることにより、モデルの柔軟性と転送性を評価します。
論文 参考訳(メタデータ) (2021-02-12T06:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。