論文の概要: What Do You See in Vehicle? Comprehensive Vision Solution for In-Vehicle Gaze Estimation
- arxiv url: http://arxiv.org/abs/2403.15664v1
- Date: Sat, 23 Mar 2024 01:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 21:41:55.397357
- Title: What Do You See in Vehicle? Comprehensive Vision Solution for In-Vehicle Gaze Estimation
- Title(参考訳): 自動車に何が見えるか? 車内視線推定のための包括的視覚解法
- Authors: Yihua Cheng, Yaning Zhu, Zongji Wang, Hongquan Hao, Yongwei Liu, Shiqing Cheng, Xi Wang, Hyung Jin Chang,
- Abstract要約: 本稿では,車内視線研究を進めるための3つの新しい要素について述べる。
まず、車内視線を捉えた先駆的なデータセットであるIVGazeを紹介する。
第2に、IVGazeを利用した車内視線推定に焦点を当てた。
第3に、GazeDPTRを拡張することで、視線ゾーン分類の新しい戦略を探求する。
- 参考スコア(独自算出の注目度): 18.155092199205907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driver's eye gaze holds a wealth of cognitive and intentional cues crucial for intelligent vehicles. Despite its significance, research on in-vehicle gaze estimation remains limited due to the scarcity of comprehensive and well-annotated datasets in real driving scenarios. In this paper, we present three novel elements to advance in-vehicle gaze research. Firstly, we introduce IVGaze, a pioneering dataset capturing in-vehicle gaze, collected from 125 subjects and covering a large range of gaze and head poses within vehicles. Conventional gaze collection systems are inadequate for in-vehicle use. In this dataset, we propose a new vision-based solution for in-vehicle gaze collection, introducing a refined gaze target calibration method to tackle annotation challenges. Second, our research focuses on in-vehicle gaze estimation leveraging the IVGaze. In-vehicle face images often suffer from low resolution, prompting our introduction of a gaze pyramid transformer that leverages transformer-based multilevel features integration. Expanding upon this, we introduce the dual-stream gaze pyramid transformer (GazeDPTR). Employing perspective transformation, we rotate virtual cameras to normalize images, utilizing camera pose to merge normalized and original images for accurate gaze estimation. GazeDPTR shows state-of-the-art performance on the IVGaze dataset. Thirdly, we explore a novel strategy for gaze zone classification by extending the GazeDPTR. A foundational tri-plane and project gaze onto these planes are newly defined. Leveraging both positional features from the projection points and visual attributes from images, we achieve superior performance compared to relying solely on visual features, substantiating the advantage of gaze estimation. Our project is available at https://yihua.zone/work/ivgaze.
- Abstract(参考訳): ドライバーの視線は、インテリジェントな車両にとって重要な認知と意図的な手がかりの豊富なものである。
その重要性にもかかわらず、車内視線推定の研究は、現実の運転シナリオにおける包括的で注意深いデータセットの不足のため、依然として限られている。
本稿では,車内視線研究を進めるための3つの新しい要素について述べる。
まず、車内視線を捉えた先駆的なデータセットであるIVGazeを紹介し、125人の被験者から収集し、車両内の広範囲の視線と頭部ポーズをカバーする。
従来の視線収集システムは車内使用には不十分である。
本稿では,車内視線収集のための新しいビジョンベースソリューションを提案し,アノテーション問題に対処するための改良された視線目標校正手法を提案する。
第2に、IVGazeを利用した車内視線推定に焦点を当てた。
車両内の顔画像はしばしば低解像度に悩まされ、トランスフォーマーベースのマルチレベル機能統合を活用した視線ピラミッドトランスフォーマーが導入された。
これを拡張して、デュアルストリームの視線ピラミッド変換器(GazeDPTR)を導入する。
視点変換を利用すると、仮想カメラを回転させて画像を正規化し、カメラのポーズを利用して正規化とオリジナル画像をマージして正確な視線推定を行う。
GazeDPTRはIVGazeデータセット上で最先端のパフォーマンスを示す。
第3に、GazeDPTRを拡張して、視線ゾーン分類の新しい戦略を探求する。
基礎的な三面体とプロジェクトによるこれらの平面の視線が新たに定義される。
投影点からの位置特徴と画像からの視覚特性の両方を利用すれば、視線推定の利点を実証し、視覚的特徴のみに依存するよりも優れた性能が得られる。
私たちのプロジェクトはhttps://yihua.zone/work/ivgaze.comで利用可能です。
関連論文リスト
- GazeGen: Gaze-Driven User Interaction for Visual Content Generation [11.03973723295504]
本稿では,ユーザの視線で示される位置の視覚的コンテンツ(画像とビデオ)を生成するユーザインタラクションシステムであるGazeGenを紹介する。
オブジェクト検出と生成AIの高度な技術を使用して、GazeGenは画像オブジェクトの視線制御された画像の追加/削除、再配置、および表面物質の変化を実行し、静的イメージをビデオに変換する。
GazeGenの中心は、281Kパラメータしか持たない超軽量モデルであるDFT Gazeエージェントである。
論文 参考訳(メタデータ) (2024-11-07T00:22:38Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - Weakly-Supervised Physically Unconstrained Gaze Estimation [80.66438763587904]
我々は、人間のインタラクションのビデオから弱教師付き視線推定を行うという未発見の問題に対処する。
本稿では,タスクに特化して設計された新しい損失関数とともに,トレーニングアルゴリズムを提案する。
a)半教師付き視線推定の精度と(b)最先端の物理的に制約のないGaze360視線推定ベンチマーク上でのクロスドメイン一般化の精度を大幅に改善した。
論文 参考訳(メタデータ) (2021-05-20T14:58:52Z) - Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。
UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-16T11:37:43Z) - Parsing-based View-aware Embedding Network for Vehicle Re-Identification [138.11983486734576]
本稿では,車載ReIDのビューアウェア機能アライメントと拡張を実現するために,解析に基づくPVEN(View-Aware Embedding Network)を提案する。
3つのデータセットで行った実験により、我々のモデルは最先端の手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-04-10T13:06:09Z) - Gaze Preserving CycleGANs for Eyeglass Removal & Persistent Gaze
Estimation [8.47514372451741]
視線方向を推定することは、理想的な条件下で運転者の状態を測定する最も明白な方法である。
厳密な照明、夜間の条件、反射眼鏡の下で単独でポーズをとることは、信頼性が悪く、誤っていることを証明できる。
提案するGaze Preserving CycleGAN (GPCycleGAN) は,顔画像から潜在的眼鏡を取り除き,運転者の視線を保護するために訓練されている。
論文 参考訳(メタデータ) (2020-02-06T02:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。