論文の概要: DriverMHG: A Multi-Modal Dataset for Dynamic Recognition of Driver Micro
Hand Gestures and a Real-Time Recognition Framework
- arxiv url: http://arxiv.org/abs/2003.00951v2
- Date: Tue, 19 Oct 2021 13:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 05:33:49.637457
- Title: DriverMHG: A Multi-Modal Dataset for Dynamic Recognition of Driver Micro
Hand Gestures and a Real-Time Recognition Framework
- Title(参考訳): DriverMHG:ドライバマイクロハンドジェスチャの動的認識のためのマルチモーダルデータセットとリアルタイム認識フレームワーク
- Authors: Okan K\"op\"ukl\"u, Thomas Ledwon, Yao Rong, Neslihan Kose, Gerhard
Rigoll
- Abstract要約: ビデオストリームからの動的マイクロハンドジェスチャのリアルタイム認識は車内シナリオでは困難である。
本稿では,スライディングウインドウアプローチを用いて,オンラインで効率的に動作する軽量畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
3D-MobileNetV2は、最高のオフライン精度を提供する。
- 参考スコア(独自算出の注目度): 9.128828609564522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of hand gestures provides a natural alternative to cumbersome
interface devices for Human-Computer Interaction (HCI) systems. However,
real-time recognition of dynamic micro hand gestures from video streams is
challenging for in-vehicle scenarios since (i) the gestures should be performed
naturally without distracting the driver, (ii) micro hand gestures occur within
very short time intervals at spatially constrained areas, (iii) the performed
gesture should be recognized only once, and (iv) the entire architecture should
be designed lightweight as it will be deployed to an embedded system. In this
work, we propose an HCI system for dynamic recognition of driver micro hand
gestures, which can have a crucial impact in automotive sector especially for
safety related issues. For this purpose, we initially collected a dataset named
Driver Micro Hand Gestures (DriverMHG), which consists of RGB, depth and
infrared modalities. The challenges for dynamic recognition of micro hand
gestures have been addressed by proposing a lightweight convolutional neural
network (CNN) based architecture which operates online efficiently with a
sliding window approach. For the CNN model, several 3-dimensional resource
efficient networks are applied and their performances are analyzed. Online
recognition of gestures has been performed with 3D-MobileNetV2, which provided
the best offline accuracy among the applied networks with similar computational
complexities. The final architecture is deployed on a driver simulator
operating in real-time. We make DriverMHG dataset and our source code publicly
available.
- Abstract(参考訳): ハンドジェスチャの使用は、人間とコンピュータのインタラクション(hci)システムのための面倒なインターフェイスデバイスに自然な代替を提供する。
しかし,ビデオストリームからの動的マイクロハンドジェスチャのリアルタイム認識は車内シナリオでは困難である。
(i)運転者の気を散らさずに自然に行う。
(ii)空間的に制約された領域で非常に短い時間間隔でマイクロハンドジェスチャが発生する。
(iii)一度のみ認識すべきで、
(iv) 組み込みシステムにデプロイされるため、アーキテクチャ全体が軽量に設計されるべきである。
本研究では,自動車部門,特に安全に関する問題に対して,運転者のマイクロハンドジェスチャーを動的に認識するHCIシステムを提案する。
この目的のために、まず、RGB、深さ、赤外モードからなるDriverMHG(Driver Micro Hand Gestures)というデータセットを収集した。
マイクロハンドジェスチャの動的認識の課題は、スライディングウインドウアプローチでオンラインで効率的に動作する軽量畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャを提案することで解決されている。
CNNモデルでは、複数の3次元資源効率ネットワークを適用し、その性能を解析する。
ジェスチャーのオンライン認識は3D-MobileNetV2で行われており、同様の計算複雑性を持つ適用ネットワーク間で最高のオフライン精度を提供する。
最後のアーキテクチャは、リアルタイムに動作するドライバシミュレータにデプロイされる。
DriverMHGデータセットとソースコードを公開しています。
関連論文リスト
- N-DriverMotion: Driver motion learning and prediction using an event-based camera and directly trained spiking neural networks on Loihi 2 [2.3941497253612085]
本稿では,ドライバーの動きを学習し,予測する新しいシステムと,イベントベース高分解能データセット(1280x720)を提案する。
提案したニューロモルフィック視覚システムは、CSNNアーキテクチャでドライバの動きを認識する際に、同等の精度94.04%を達成する。
論文 参考訳(メタデータ) (2024-08-23T21:25:16Z) - Real-Time Hand Gesture Recognition: Integrating Skeleton-Based Data Fusion and Multi-Stream CNN [0.0]
ハンドジェスチャ認識(HGR)は、様々な現実世界のコンテキストにおいて、直感的な人間とコンピュータのインタラクションを可能にする。
既存のフレームワークは、実用的なHGRアプリケーションに必要なリアルタイム要件を満たすのに苦労することが多い。
本研究では,動的ハンドジェスチャの静的イメージタスクへの認識を簡略化する,動的HGRのための頑健な骨格ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-21T09:30:59Z) - G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving [71.9040410238973]
我々は、視線データを用いて、運転者の車両のエゴ軌道を推定することに集中する。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるG-MEMPを開発する。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving [12.713417063678335]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - A Wireless-Vision Dataset for Privacy Preserving Human Activity
Recognition [53.41825941088989]
アクティビティ認識の堅牢性を改善するため,WiNN(WiFi-based and video-based neural network)が提案されている。
以上の結果から,WiViデータセットは一次需要を満足し,パイプライン内の3つのブランチはすべて,80%以上のアクティビティ認識精度を維持していることがわかった。
論文 参考訳(メタデータ) (2022-05-24T10:49:11Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Achieving Real-Time LiDAR 3D Object Detection on a Mobile Device [53.323878851563414]
本稿では,強化学習技術を用いたネットワーク拡張とpruning検索を組み込んだコンパイラ対応統一フレームワークを提案する。
具体的には,リカレントニューラルネットワーク(RNN)を用いて,ネットワークの強化とプルーニングの両面での統一的なスキームを自動で提供する。
提案手法は,モバイルデバイス上でのリアルタイム3次元物体検出を実現する。
論文 参考訳(メタデータ) (2020-12-26T19:41:15Z) - DMD: A Large-Scale Multi-Modal Driver Monitoring Dataset for Attention
and Alertness Analysis [54.198237164152786]
視覚は運転監視システム(DMS)の最も豊かで費用対効果の高い技術である
十分に大規模で包括的なデータセットの欠如は、DMS開発の進展のボトルネックとなっている。
本稿では,実運転シナリオとシミュレーション運転シナリオを含む広範囲なデータセットであるドライバモニタリングデータセット(DMD)を紹介する。
論文 参考訳(メタデータ) (2020-08-27T12:33:54Z) - LE-HGR: A Lightweight and Efficient RGB-based Online Gesture Recognition
Network for Embedded AR Devices [8.509059894058947]
本稿では,低消費電力な組込みデバイス上でのリアルタイムジェスチャー認識を実現するために,軽量で計算効率のよいHGRフレームワークLE-HGRを提案する。
提案手法は高精度でロバスト性があり,様々な複雑な相互作用環境において,高性能な性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-01-16T05:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。