論文の概要: Head and eye egocentric gesture recognition for human-robot interaction
using eyewear cameras
- arxiv url: http://arxiv.org/abs/2201.11500v1
- Date: Thu, 27 Jan 2022 13:26:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 15:37:46.003633
- Title: Head and eye egocentric gesture recognition for human-robot interaction
using eyewear cameras
- Title(参考訳): 眼鏡カメラを用いた人間とロボットのインタラクションのための頭と目の中心的なジェスチャー認識
- Authors: Javier Marina-Miranda, V. Javier Traver
- Abstract要約: この研究は人間のジェスチャー認識の問題に対処する。
特に、頭部と眼のジェスチャーに焦点を合わせ、アイウェアカメラを用いた自我中心(ファーストパーソナリティ)の視点を採用する。
2つの時間的粒度で動作する動きに基づく認識手法を提案する。
- 参考スコア(独自算出の注目度): 4.344337854565144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-verbal communication plays a particularly important role in a wide range
of scenarios in Human-Robot Interaction (HRI). Accordingly, this work addresses
the problem of human gesture recognition. In particular, we focus on head and
eye gestures, and adopt an egocentric (first-person) perspective using eyewear
cameras. We argue that this egocentric view offers a number of conceptual and
technical benefits over scene- or robot-centric perspectives.
A motion-based recognition approach is proposed, which operates at two
temporal granularities. Locally, frame-to-frame homographies are estimated with
a convolutional neural network (CNN). The output of this CNN is input to a long
short-term memory (LSTM) to capture longer-term temporal visual relationships,
which are relevant to characterize gestures.
Regarding the configuration of the network architecture, one particularly
interesting finding is that using the output of an internal layer of the
homography CNN increases the recognition rate with respect to using the
homography matrix itself. While this work focuses on action recognition, and no
robot or user study has been conducted yet, the system has been de signed to
meet real-time constraints. The encouraging results suggest that the proposed
egocentric perspective is viable, and this proof-of-concept work provides novel
and useful contributions to the exciting area of HRI.
- Abstract(参考訳): 非言語コミュニケーションは、人間-ロボットインタラクション(HRI)の幅広いシナリオにおいて特に重要な役割を果たす。
そこで本研究では,人間のジェスチャー認識の問題に対処する。
特に、頭部と眼のジェスチャーに焦点を合わせ、アイウェアカメラを用いた自我中心(ファーストパーソナリティ)の視点を採用する。
この自我中心の視点は、シーンやロボット中心の視点よりも、概念的、技術的に多くの利点をもたらすと我々は主張する。
2つの時間的粒度で動作する動きに基づく認識手法を提案する。
局所的に、畳み込みニューラルネットワーク(cnn)を用いてフレーム間相同性を推定する。
このCNNの出力は、長い短期記憶(LSTM)に入力され、ジェスチャーの特徴付けに関連する長期の時間的視覚的関係をキャプチャする。
ネットワークアーキテクチャの構成に関して、特に興味深い発見は、ホモグラフィCNNの内部層の出力を使用することで、ホモグラフィ行列自体の使用に対する認識率が増加することである。
この研究はアクション認識に焦点を当てており、ロボットやユーザーによる研究はまだ行われていないが、システムはリアルタイムの制約を満たすために署名されていない。
奨励的な結果から,提案する自己中心的視点は実現可能であり,この概念実証はhriのエキサイティングな領域に新規で有用な貢献を与える。
関連論文リスト
- Apprenticeship-Inspired Elegance: Synergistic Knowledge Distillation Empowers Spiking Neural Networks for Efficient Single-Eye Emotion Recognition [53.359383163184425]
本稿では, 効率的な単一眼球運動認識タスクに適した, マルチモーダル・シナジスティック知識蒸留方式を提案する。
この方法では、軽量で単調な学生スパイクニューラルネットワーク(SNN)が、イベントフレームマルチモーダル教師ネットワークから豊富な知識を抽出することができる。
論文 参考訳(メタデータ) (2024-06-20T07:24:47Z) - Exploring Explainability in Video Action Recognition [5.7782784592048575]
ビデオ行動認識と画像分類はコンピュータビジョンの基本課題である。
Video-TCAVは、ビデオ行動認識モデルの意思決定プロセスにおいて、特定の概念の重要性を定量化することを目的としている。
本稿では,ビデオ-TCAVテストにおいて,映像行動認識に関連する空間的・時間的概念を生成するための機械支援手法を提案する。
論文 参考訳(メタデータ) (2024-04-13T19:34:14Z) - Emotion Recognition from the perspective of Activity Recognition [0.0]
人間の感情状態、行動、反応を現実世界の環境に適応させることは、潜伏した連続した次元を用いて達成できる。
感情認識システムが現実のモバイルおよびコンピューティングデバイスにデプロイされ統合されるためには、世界中の収集されたデータを考慮する必要がある。
本稿では,注目機構を備えた新しい3ストリームエンドツーエンドのディープラーニング回帰パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-24T18:53:57Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Context-Aware Sequence Alignment using 4D Skeletal Augmentation [67.05537307224525]
コンピュータビジョン、ロボティクス、混合現実の多くの応用において、ビデオにおける人間の行動の微粒化の時間的アライメントが重要である。
本稿では,アクションのシーケンスを整列するコンテキスト認識型自己教師型学習アーキテクチャを提案する。
特に、CASAは、人間の行動の空間的・時間的文脈を組み込むために、自己注意と相互注意のメカニズムを採用している。
論文 参考訳(メタデータ) (2022-04-26T10:59:29Z) - Coarse Temporal Attention Network (CTA-Net) for Driver's Activity
Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。
我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。
モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文 参考訳(メタデータ) (2021-01-17T10:15:37Z) - Regional Attention Network (RAN) for Head Pose and Fine-grained Gesture
Recognition [9.131161856493486]
本研究では,CNN(Convolutional Neural Network) である RAN (End-to-end textbfRegional Attention Network) を提案する。
我々の領域は1つ以上の連続した細胞から構成されており、HOG(Histogram of Oriented Gradient)ディスクリプタの計算に使用される戦略に適応している。
提案手法は、異なる指標のかなりの差で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-01-17T10:14:28Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Attention-Oriented Action Recognition for Real-Time Human-Robot
Interaction [11.285529781751984]
本稿では,リアルタイムインタラクションの必要性に応えるために,アテンション指向のマルチレベルネットワークフレームワークを提案する。
具体的には、プレアテンションネットワークを使用して、低解像度でシーン内のインタラクションに大まかにフォーカスする。
他のコンパクトCNNは、抽出されたスケルトンシーケンスをアクション認識用の入力として受信する。
論文 参考訳(メタデータ) (2020-07-02T12:41:28Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。