論文の概要: SCOUT+: Towards Practical Task-Driven Drivers' Gaze Prediction
- arxiv url: http://arxiv.org/abs/2404.08756v1
- Date: Fri, 12 Apr 2024 18:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 18:52:17.691743
- Title: SCOUT+: Towards Practical Task-Driven Drivers' Gaze Prediction
- Title(参考訳): SCOUT+: タスク駆動運転者の視線予測に向けて
- Authors: Iuliia Kotseruba, John K. Tsotsos,
- Abstract要約: SCOUT+はドライバーの視線予測のためのタスクおよびコンテキスト認識モデルである。
DR(eye)VEとBDD-Aの2つのデータセットでモデルを評価する。
- 参考スコア(独自算出の注目度): 12.246649738388388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate prediction of drivers' gaze is an important component of vision-based driver monitoring and assistive systems. Of particular interest are safety-critical episodes, such as performing maneuvers or crossing intersections. In such scenarios, drivers' gaze distribution changes significantly and becomes difficult to predict, especially if the task and context information is represented implicitly, as is common in many state-of-the-art models. However, explicit modeling of top-down factors affecting drivers' attention often requires additional information and annotations that may not be readily available. In this paper, we address the challenge of effective modeling of task and context with common sources of data for use in practical systems. To this end, we introduce SCOUT+, a task- and context-aware model for drivers' gaze prediction, which leverages route and map information inferred from commonly available GPS data. We evaluate our model on two datasets, DR(eye)VE and BDD-A, and demonstrate that using maps improves results compared to bottom-up models and reaches performance comparable to the top-down model SCOUT which relies on privileged ground truth information. Code is available at https://github.com/ykotseruba/SCOUT.
- Abstract(参考訳): 運転者の視線の正確な予測は、視覚に基づく運転監視と補助システムの重要な構成要素である。
特に興味深いのは、機動や交差点を横断するなど、安全に重要なエピソードである。
このようなシナリオでは、運転者の視線分布は著しく変化し、特にタスクやコンテキスト情報が暗黙的に表現される場合、特に多くの最先端モデルでよく見られるような予測が困難になる。
しかし、ドライバーの注意に影響を及ぼすトップダウン要因の明示的なモデリングは、しばしば容易に利用できないかもしれない追加の情報とアノテーションを必要とする。
本稿では,タスクとコンテキストの効果的なモデリングを,実践的なシステムで使用する共通のデータソースで行うことの課題に対処する。
この目的のために,ドライバの視線予測のためのタスク認識およびコンテキスト認識モデルであるSCOUT+を導入し,一般的なGPSデータから推定される経路情報と地図情報を活用する。
我々は、DR(eye)VEとBDD-Aの2つのデータセット上でモデルを評価し、マップを使用することでボトムアップモデルと比較して結果が改善され、特権的真実情報に依存するトップダウンモデルSCOUTに匹敵するパフォーマンスに達することを実証した。
コードはhttps://github.com/ykotseruba/SCOUT.comから入手できる。
関連論文リスト
- DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Guiding Attention in End-to-End Driving Models [49.762868784033785]
模倣学習によって訓練された視覚ベースのエンドツーエンドの運転モデルは、自動運転のための安価なソリューションにつながる可能性がある。
トレーニング中に損失項を追加することにより、これらのモデルの注意を誘導し、運転品質を向上させる方法について検討する。
従来の研究とは対照的に,本手法では,テスト期間中にこれらの有意義なセマンティックマップを利用できない。
論文 参考訳(メタデータ) (2024-04-30T23:18:51Z) - Data Limitations for Modeling Top-Down Effects on Drivers' Attention [12.246649738388388]
運転は視覚運動のタスクであり、つまり、ドライバーが見ているものと何をするかの間には関連がある。
ドライバーの視線の一部のモデルは、ドライバーの行動によるトップダウン効果を考慮に入れている。
大多数は人間の視線と運転映像のボトムアップ相関しか学ばない。
論文 参考訳(メタデータ) (2024-04-12T18:23:00Z) - G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving [71.9040410238973]
我々は、視線データを用いて、運転者の車両のエゴ軌道を推定することに集中する。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるG-MEMPを開発する。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - Understanding and Modeling the Effects of Task and Context on Drivers' Gaze Allocation [12.246649738388388]
我々は,ドライバーの視線予測を明示的な行動と文脈情報で調節する新しいモデルを開発した。
我々は、DR(eye)VEで使用されるデータ処理パイプラインを補正し、記録された視線データのノイズを低減する。
我々は、サリエンシとドライバの視線予測のためのベースラインモデルとSOTAモデルをベンチマークし、新しいアノテーションを使用して、異なるタスクを含むシナリオにおけるパフォーマンスの変化を分析する。
論文 参考訳(メタデータ) (2023-10-13T17:38:41Z) - FBLNet: FeedBack Loop Network for Driver Attention Prediction [75.83518507463226]
非客観的運転経験はモデル化が難しい。
本稿では,運転経験蓄積過程をモデル化するFeedBack Loop Network (FBLNet)を提案する。
インクリメンタルな知識の指導のもと、私たちのモデルは入力画像から抽出されたCNN特徴とトランスフォーマー特徴を融合し、ドライバーの注意を予測します。
論文 参考訳(メタデータ) (2022-12-05T08:25:09Z) - Exploring Map-based Features for Efficient Attention-based Vehicle
Motion Prediction [3.222802562733787]
複数のエージェントの動作予測は、任意に複雑な環境において重要なタスクである。
本稿では,効率的な注意モデルを用いてArgoverse 1.0ベンチマークで競合性能を実現する方法を示す。
論文 参考訳(メタデータ) (2022-05-25T22:38:11Z) - Predicting Take-over Time for Autonomous Driving with Real-World Data:
Robust Data Augmentation, Models, and Evaluation [11.007092387379076]
我々は、運転者向けカメラビューで動作するコンピュータビジョンアルゴリズムによって作成される中高レベルの機能で動作するテイクオーバー時間(TOT)モデルを開発し、訓練する。
拡張データでサポートされたTOTモデルを用いて,遅延なく連続的なテイクオーバー時間を推定できることを示す。
論文 参考訳(メタデータ) (2021-07-27T16:39:50Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - GISNet: Graph-Based Information Sharing Network For Vehicle Trajectory
Prediction [6.12727713172576]
Google、Uber、DiDiなどのAI指向企業は、より正確な車両軌道予測アルゴリズムを調査している。
本稿では,対象車両とその周辺車両間の情報共有を可能にする新しいグラフベース情報共有ネットワーク(GISNet)を提案する。
論文 参考訳(メタデータ) (2020-03-22T03:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。