論文の概要: Where, What, Why: Towards Explainable Driver Attention Prediction
- arxiv url: http://arxiv.org/abs/2506.23088v1
- Date: Sun, 29 Jun 2025 04:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.711879
- Title: Where, What, Why: Towards Explainable Driver Attention Prediction
- Title(参考訳): 説明可能なドライバー注意予測に向けて、どこ、なぜ、なぜ?
- Authors: Yuchen Zhou, Jiayu Tang, Xiaoyan Xiao, Yueyao Lin, Linkai Liu, Zipeng Guo, Hao Fei, Xiaobo Xia, Chao Gou,
- Abstract要約: これは空間的注意領域(場所)を共同で予測し、参加する意味論(何)を解析し、注意割当のための認知的推論(なぜ)を提供する新しいタスクパラダイムである。
ドライバー注意予測のための大規模言語モデル駆動フレームワークであるLLadaを提案し、エンドツーエンドアーキテクチャ内でピクセルモデリング、セマンティック解析、認知推論を統合する。
この研究は、自律運転、インテリジェントドライバートレーニング、人間とコンピュータの相互作用など、ドライバーの注意機構のより深い理解に向けた重要なステップとなる。
- 参考スコア(独自算出の注目度): 28.677786362573638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling task-driven attention in driving is a fundamental challenge for both autonomous vehicles and cognitive science. Existing methods primarily predict where drivers look by generating spatial heatmaps, but fail to capture the cognitive motivations behind attention allocation in specific contexts, which limits deeper understanding of attention mechanisms. To bridge this gap, we introduce Explainable Driver Attention Prediction, a novel task paradigm that jointly predicts spatial attention regions (where), parses attended semantics (what), and provides cognitive reasoning for attention allocation (why). To support this, we present W3DA, the first large-scale explainable driver attention dataset. It enriches existing benchmarks with detailed semantic and causal annotations across diverse driving scenarios, including normal conditions, safety-critical situations, and traffic accidents. We further propose LLada, a Large Language model-driven framework for driver attention prediction, which unifies pixel modeling, semantic parsing, and cognitive reasoning within an end-to-end architecture. Extensive experiments demonstrate the effectiveness of LLada, exhibiting robust generalization across datasets and driving conditions. This work serves as a key step toward a deeper understanding of driver attention mechanisms, with significant implications for autonomous driving, intelligent driver training, and human-computer interaction.
- Abstract(参考訳): 自動運転におけるタスク駆動の注意をモデル化することは、自動運転車と認知科学の両方にとって根本的な課題である。
既存の方法は、主にドライバーが空間的なヒートマップを生成することによってどこに見えるかを予測するが、特定のコンテキストにおける注意割り当ての背後にある認知的動機を捉えることができず、注意機構の深い理解が制限される。
このギャップを埋めるために、説明可能な運転注意予測(Explainable Driver Attention Prediction)を導入する。これは空間的注意領域(どこ)を共同で予測し、参加する意味論(何)を解析し、注意割当(なぜ)の認知的推論を提供する新しいタスクパラダイムである。
これをサポートするために、最初の大規模説明可能なドライバー注意データセットであるW3DAを提案する。
通常の状況、安全クリティカルな状況、交通事故など、さまざまな運転シナリオにまたがる詳細なセマンティックアノテーションと因果アノテーションによって、既存のベンチマークを充実させる。
さらに,運転注意予測のための大規模言語モデル駆動フレームワークであるLLadaを提案する。
大規模な実験はLLadaの有効性を示し、データセットと運転条件をまたいだ堅牢な一般化を示す。
この研究は、自動運転、インテリジェントドライバートレーニング、人間とコンピュータの相互作用など、ドライバーの注意機構のより深い理解に向けた重要なステップとなる。
関連論文リスト
- Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - Cognitive Accident Prediction in Driving Scenes: A Multimodality
Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。
CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。
我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2022-12-19T11:43:02Z) - FBLNet: FeedBack Loop Network for Driver Attention Prediction [50.936478241688114]
非客観的運転経験のモデル化は困難であり,既存手法では運転経験蓄積手順を模擬する機構が欠如している。
本稿では,運転経験蓄積手順をモデル化するFeedBack Loop Network (FBLNet)を提案する。
提案モデルでは,既存の手法に対して強い優位性を示し,2つのドライバー注意ベンチマークデータセットの性能向上を実現している。
論文 参考訳(メタデータ) (2022-12-05T08:25:09Z) - Where and What: Driver Attention-based Object Detection [13.5947650184579]
画素レベルとオブジェクトレベルのアテンション予測のギャップを埋める。
本フレームワークは,画素レベルとオブジェクトレベルの両方において,最先端の競合性能を実現する。
論文 参考訳(メタデータ) (2022-04-26T08:38:22Z) - CoCAtt: A Cognitive-Conditioned Driver Attention Dataset [16.177399201198636]
運転注意予測は、ハイリスクイベントの緩和と防止に重要な役割を果たす。
我々は新しいドライバーアテンションデータセットであるCoCAttを提示する。
CoCAttは、自律性レベル、アイトラッカーの解像度、運転シナリオといった面で、最大かつ最も多様なドライバー注意データセットである。
論文 参考訳(メタデータ) (2021-11-19T02:42:34Z) - Perceive, Attend, and Drive: Learning Spatial Attention for Safe
Self-Driving [84.59201486239908]
本稿では,入力の重要領域への自動参加を学習するスパースアテンションモジュールを備えたエンドツーエンドの自動運転ネットワークを提案する。
注意モジュールは特に運動計画をターゲットにしているが、以前の文献は知覚タスクにのみ注意を向けていた。
論文 参考訳(メタデータ) (2020-11-02T17:47:54Z) - Explaining Autonomous Driving by Learning End-to-End Visual Attention [25.09407072098823]
現在のディープラーニングベースの自律運転アプローチは、いくつかの制御されたシナリオにおいて、本番環境へのデプロイも実現している。
最も人気があり魅力的なアプローチの1つは、センサーが認識したデータから直接車両の制御を学習することに依存している。
このアプローチの主な欠点は、他の学習問題と同様に、説明可能性の欠如である。実際、ディープネットワークは、なぜそのような決定を下されたのかを何のフィードバックも与えずに、これまで見られた駆動パターンによって予測を出力するブラックボックスとして機能する。
論文 参考訳(メタデータ) (2020-06-05T10:12:31Z) - When Do Drivers Concentrate? Attention-based Driver Behavior Modeling
With Deep Reinforcement Learning [8.9801312307912]
本研究では,運転者の行動を観察に基づいて近似し,運転者の注意度を計測するアクタ批判手法を提案する。
反応時間を考慮してアクターネットワークにアテンション機構を構築し,連続した観測の時間的依存性を捉える。
実世界の車両軌道データを用いて実験を行い,提案手法の精度が7つのベースラインアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-02-26T09:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。