論文の概要: Speak2Label: Using Domain Knowledge for Creating a Large Scale Driver
Gaze Zone Estimation Dataset
- arxiv url: http://arxiv.org/abs/2004.05973v4
- Date: Mon, 18 Oct 2021 04:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 00:10:09.056957
- Title: Speak2Label: Using Domain Knowledge for Creating a Large Scale Driver
Gaze Zone Estimation Dataset
- Title(参考訳): Speak2Label: 大規模ドライバゲイズゾーン推定データセット作成にドメイン知識を使用する
- Authors: Shreya Ghosh, Abhinav Dhall, Garima Sharma, Sarthak Gupta, Nicu Sebe
- Abstract要約: ワイルド・データセットのドライバ・ゲイズには、夕方を含む1日の異なる時間に撮影された586の録音が含まれている。
ワイルド・データセットのドライバ・ゲイズには338人の被験者がおり、年齢は18-63歳である。
- 参考スコア(独自算出の注目度): 55.391532084304494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Labelling of human behavior analysis data is a complex and time consuming
task. In this paper, a fully automatic technique for labelling an image based
gaze behavior dataset for driver gaze zone estimation is proposed. Domain
knowledge is added to the data recording paradigm and later labels are
generated in an automatic manner using Speech To Text conversion (STT). In
order to remove the noise in the STT process due to different illumination and
ethnicity of subjects in our data, the speech frequency and energy are
analysed. The resultant Driver Gaze in the Wild (DGW) dataset contains 586
recordings, captured during different times of the day including evenings. The
large scale dataset contains 338 subjects with an age range of 18-63 years. As
the data is recorded in different lighting conditions, an illumination robust
layer is proposed in the Convolutional Neural Network (CNN). The extensive
experiments show the variance in the dataset resembling real-world conditions
and the effectiveness of the proposed CNN pipeline. The proposed network is
also fine-tuned for the eye gaze prediction task, which shows the
discriminativeness of the representation learnt by our network on the proposed
DGW dataset. Project Page:
https://sites.google.com/view/drivergazeprediction/home
- Abstract(参考訳): 人間の行動分析データのラベル付けは複雑で時間のかかる作業である。
本稿では,運転者視線ゾーン推定のための画像ベース視線行動データセットをラベル付けする完全自動手法を提案する。
データ記録パラダイムにドメイン知識を追加し、後に音声からテキストへの変換(stt)を使用してラベルを自動生成する。
我々のデータにおける被写体の照明や民族性の違いによるSTTプロセスのノイズを除去するために、音声周波数とエネルギーを解析する。
結果として得られたDGWデータセットには、夕方を含む1日の異なる時間に撮影された586の録音が含まれている。
大規模データセットには18-63歳の338人の被験者が含まれている。
異なる照明条件でデータを記録することにより、畳み込みニューラルネットワーク(cnn)において照明ロバスト層が提案される。
実験により,実環境に類似したデータセットの分散と,提案したCNNパイプラインの有効性が示された。
また、提案したDGWデータセット上で、我々のネットワークが学習した表現の識別性を示す目視予測タスクについても微調整を行う。
プロジェクトページ: https://sites.google.com/view/drivergazeprediction/home
関連論文リスト
- Forest Inspection Dataset for Aerial Semantic Segmentation and Depth
Estimation [6.635604919499181]
森林調査のための大規模航空データセットを新たに導入する。
現実世界と仮想的な自然環境の記録も含んでいる。
地域の森林破壊度を評価するための枠組みを開発する。
論文 参考訳(メタデータ) (2024-03-11T11:26:44Z) - VALERIE22 -- A photorealistic, richly metadata annotated dataset of
urban environments [5.439020425819001]
VALERIEツールパイプラインは、ドメイン固有の要素の理解に寄与するために開発された合成データジェネレータである。
VALERIE22データセットは、フォトリアリスティックセンサーシミュレーションを提供するVALERIEプロシージャツールパイプラインで生成された。
データセットは独自のリッチなメタデータセットを提供し、特定のシーンとセマンティックな特徴の抽出を可能にする。
論文 参考訳(メタデータ) (2023-08-18T15:44:45Z) - STREAMLINE: Streaming Active Learning for Realistic Multi-Distributional
Settings [2.580765958706854]
STREAMLINEは、シナリオ駆動スライス不均衡を緩和する新しいストリーミングアクティブラーニングフレームワークである。
画像分類とオブジェクト検出タスクのための実世界のストリーミングシナリオ上でSTREAMLINEを評価する。
論文 参考訳(メタデータ) (2023-05-18T02:01:45Z) - Change Detection from Synthetic Aperture Radar Images via Graph-Based
Knowledge Supplement Network [36.41983596642354]
画像変化検出のためのグラフベースの知識補足ネットワーク(GKSNet)を提案する。
より具体的には、既存のラベル付きデータセットから識別情報を付加的な知識として抽出する。
提案手法を検証するために,4つのSARデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-01-22T02:50:50Z) - Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision
Datasets from 3D Scans [103.92680099373567]
本稿では,実世界の包括的3Dスキャンからマルチタスク視覚データセットをパラメトリックサンプリングし,レンダリングするパイプラインを提案する。
サンプリングパラメータを変更することで、生成されたデータセットを“ステア”して、特定の情報を強調することが可能になる。
生成されたスタータデータセットでトレーニングされた共通アーキテクチャは、複数の共通ビジョンタスクとベンチマークで最先端のパフォーマンスに達した。
論文 参考訳(メタデータ) (2021-10-11T04:21:46Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - ETH-XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head
Pose and Gaze Variation [52.5465548207648]
ETH-XGazeは100万以上の高解像度画像からなる新しい視線推定データセットである。
我々のデータセットは、異なる頭部ポーズと視線角度で視線推定手法のロバスト性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-07-31T04:15:53Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z) - JHU-CROWD++: Large-Scale Crowd Counting Dataset and A Benchmark Method [92.15895515035795]
我々は、"4,372"イメージと"1.51万"アノテーションを含む、新しい大規模非制約クラウドカウントデータセット(JHU-CROWD++)を導入する。
本稿では, 残差誤差推定により, 群集密度マップを段階的に生成する新しい群集カウントネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T14:59:35Z) - Learning-Based Human Segmentation and Velocity Estimation Using
Automatic Labeled LiDAR Sequence for Training [15.19884183320726]
本稿では,ポイントクラウドを用いた人間認識のための自動ラベル付きシーケンシャルデータ生成パイプラインを提案する。
提案手法では, 高精度な人体モデルを用いて, 正確な動きを再現し, リアルな人工データを生成する。
論文 参考訳(メタデータ) (2020-03-11T03:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。