論文の概要: Driver Attention Tracking and Analysis
- arxiv url: http://arxiv.org/abs/2404.07122v2
- Date: Thu, 11 Apr 2024 09:10:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 12:39:58.688173
- Title: Driver Attention Tracking and Analysis
- Title(参考訳): 運転注意追跡と分析
- Authors: Dat Viet Thanh Nguyen, Anh Tran, Hoai Nam Vu, Cuong Pham, Minh Hoai,
- Abstract要約: 車両のフロントガラスとダッシュボードに装着された通常の2台のカメラを用いて、運転者の視線を推定する新しい手法を提案する。
これは、未知の深さの3Dシーンを持つ交通環境のダイナミクスのため、難しい問題である。
本研究では,シーンの画像と運転者の顔の画像とを同時に解析する新しい畳み込みネットワークを開発する。
- 参考スコア(独自算出の注目度): 17.536550982093143
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a novel method to estimate a driver's points-of-gaze using a pair of ordinary cameras mounted on the windshield and dashboard of a car. This is a challenging problem due to the dynamics of traffic environments with 3D scenes of unknown depths. This problem is further complicated by the volatile distance between the driver and the camera system. To tackle these challenges, we develop a novel convolutional network that simultaneously analyzes the image of the scene and the image of the driver's face. This network has a camera calibration module that can compute an embedding vector that represents the spatial configuration between the driver and the camera system. This calibration module improves the overall network's performance, which can be jointly trained end to end. We also address the lack of annotated data for training and evaluation by introducing a large-scale driving dataset with point-of-gaze annotations. This is an in situ dataset of real driving sessions in an urban city, containing synchronized images of the driving scene as well as the face and gaze of the driver. Experiments on this dataset show that the proposed method outperforms various baseline methods, having the mean prediction error of 29.69 pixels, which is relatively small compared to the $1280{\times}720$ resolution of the scene camera.
- Abstract(参考訳): 車両のフロントガラスとダッシュボードに装着された通常の2台のカメラを用いて、運転者の視線を推定する新しい手法を提案する。
これは、未知の深さの3Dシーンを持つ交通環境のダイナミクスのため、難しい問題である。
この問題は、ドライバーとカメラシステムの間の揮発性距離によってさらに複雑になる。
これらの課題に対処するために、シーンの画像とドライバーの顔の画像を同時に解析する新しい畳み込みネットワークを開発する。
このネットワークは、ドライバとカメラシステムの間の空間構成を表す埋め込みベクトルを計算できるカメラキャリブレーションモジュールを有する。
このキャリブレーションモジュールは、ネットワーク全体のパフォーマンスを改善し、エンドツーエンドで共同でトレーニングすることができる。
また、注視アノテーションを用いた大規模運転データセットを導入することにより、トレーニングと評価のための注釈付きデータの欠如にも対処する。
これは都市部の実際の運転セッションのIn situデータセットで、運転シーンの同期画像と運転者の顔と視線を含む。
提案手法は, シーンカメラの平均誤差が29.69ピクセルであり, シーンカメラの解像度が1,1280{\timesの720ドルに対して比較的小さい。
関連論文リスト
- WayveScenes101: A Dataset and Benchmark for Novel View Synthesis in Autonomous Driving [4.911903454560829]
WayveScenes101は、新しいビュー合成において、コミュニティが技術の状態を前進させるのを助けるために設計されたデータセットである。
データセットは、幅広い環境条件と運転シナリオにわたる101の運転シーンで構成されている。
論文 参考訳(メタデータ) (2024-07-11T08:29:45Z) - The Interstate-24 3D Dataset: a new benchmark for 3D multi-camera
vehicle tracking [4.799822253865053]
本研究は,道路交通カメラの重なり合う都市州間高速道路に沿って記録された新しい映像データセットを提示し,交通監視状況下でのマルチカメラ3Dオブジェクト追跡を可能にする。
データは、少なくとも16台のカメラのビデオを含む3つのシーンから解放され、合計で57分である。
877,000個の3Dバウンディングボックスと対応するオブジェクトトラックレットは、各カメラの視野に対して完全に正確に注釈付けされ、各シーンごとに空間的かつ時間的に連続した車両軌跡セットに結合される。
論文 参考訳(メタデータ) (2023-08-28T18:43:33Z) - Traffic Scene Parsing through the TSP6K Dataset [109.69836680564616]
高品質なピクセルレベルのアノテーションとインスタンスレベルのアノテーションを備えた,TSP6Kと呼ばれる特殊なトラフィック監視データセットを導入する。
データセットは、既存の運転シーンの何倍ものトラフィック参加者を持つ、より混雑した交通シーンをキャプチャする。
交通シーンの異なるセマンティック領域の詳細を復元するシーン解析のためのディテールリフィニングデコーダを提案する。
論文 参考訳(メタデータ) (2023-03-06T02:05:14Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Cross-Camera Trajectories Help Person Retrieval in a Camera Network [124.65912458467643]
既存の手法では、純粋な視覚的マッチングや時間的制約を考慮することが多いが、カメラネットワークの空間情報は無視する。
本稿では,時間的情報と空間的情報を統合したクロスカメラ生成に基づく歩行者検索フレームワークを提案する。
本手法の有効性を検証するため,最初のカメラ横断歩行者軌跡データセットを構築した。
論文 参考訳(メタデータ) (2022-04-27T13:10:48Z) - Rope3D: TheRoadside Perception Dataset for Autonomous Driving and
Monocular 3D Object Detection Task [48.555440807415664]
道路沿いの知覚3Dデータセットに挑戦する最初のハイダイバーシティを提示する。
データセットは50Kイメージと、さまざまなシーンで1.5M以上の3Dオブジェクトで構成されている。
本稿では,様々なセンサや視点によって引き起こされるあいまいさを解決するために,幾何学的制約を活用することを提案する。
論文 参考訳(メタデータ) (2022-03-25T12:13:23Z) - Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images [128.881857704338]
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-10-05T12:40:33Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - Monocular 3D Vehicle Detection Using Uncalibrated Traffic Cameras
through Homography [12.062095895630563]
本稿では,1台の交通カメラから3次元世界における車両の位置とポーズを抽出する手法を提案する。
道路平面と画像平面の相同性が3D車両の検出に不可欠であることを観察する。
本稿では,BEV画像の歪み検出精度を高めるためのtextittailedr-box と textitdual-view Network アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-29T02:57:37Z) - OmniDet: Surround View Cameras based Multi-task Visual Perception
Network for Autonomous Driving [10.3540046389057]
本研究は,未修正魚眼画像のマルチタスク視覚知覚ネットワークを提案する。
自動運転システムに必要な6つの主要なタスクで構成されている。
共同で訓練されたモデルは、それぞれのタスクバージョンよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-02-15T10:46:24Z) - Practical Auto-Calibration for Spatial Scene-Understanding from
Crowdsourced Dashcamera Videos [1.0499611180329804]
本研究では,クラウドソースビデオからの単眼搭載カメラの自動キャリブレーションシステムを提案する。
提案したシステムの有効性を,KITTI生データ,Oxford RobotCar,クラウドソーシングしたD$2$-Cityデータセット上で確認した。
論文 参考訳(メタデータ) (2020-12-15T15:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。