論文の概要: Attention-Oriented Action Recognition for Real-Time Human-Robot
Interaction
- arxiv url: http://arxiv.org/abs/2007.01065v1
- Date: Thu, 2 Jul 2020 12:41:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 14:28:50.180842
- Title: Attention-Oriented Action Recognition for Real-Time Human-Robot
Interaction
- Title(参考訳): リアルタイム人間-ロボットインタラクションのための注意指向行動認識
- Authors: Ziyang Song, Ziyi Yin, Zejian Yuan, Chong Zhang, Wanchao Chi, Yonggen
Ling, Shenghao Zhang
- Abstract要約: 本稿では,リアルタイムインタラクションの必要性に応えるために,アテンション指向のマルチレベルネットワークフレームワークを提案する。
具体的には、プレアテンションネットワークを使用して、低解像度でシーン内のインタラクションに大まかにフォーカスする。
他のコンパクトCNNは、抽出されたスケルトンシーケンスをアクション認識用の入力として受信する。
- 参考スコア(独自算出の注目度): 11.285529781751984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the notable progress made in action recognition tasks, not much work
has been done in action recognition specifically for human-robot interaction.
In this paper, we deeply explore the characteristics of the action recognition
task in interaction scenarios and propose an attention-oriented multi-level
network framework to meet the need for real-time interaction. Specifically, a
Pre-Attention network is employed to roughly focus on the interactor in the
scene at low resolution firstly and then perform fine-grained pose estimation
at high resolution. The other compact CNN receives the extracted skeleton
sequence as input for action recognition, utilizing attention-like mechanisms
to capture local spatial-temporal patterns and global semantic information
effectively. To evaluate our approach, we construct a new action dataset
specially for the recognition task in interaction scenarios. Experimental
results on our dataset and high efficiency (112 fps at 640 x 480 RGBD) on the
mobile computing platform (Nvidia Jetson AGX Xavier) demonstrate excellent
applicability of our method on action recognition in real-time human-robot
interaction.
- Abstract(参考訳): 行動認識タスクにおける顕著な進歩にもかかわらず、人間とロボットの相互作用に特化した行動認識では、多くの作業が行われていない。
本稿では,インタラクションシナリオにおける行動認識タスクの特徴を深く検討し,リアルタイムインタラクションの必要性を満たすための注意指向マルチレベルネットワークフレームワークを提案する。
具体的には、まず低解像度でシーン内のインタラクタに大まかに焦点を合わせ、高分解能で微細なポーズ推定を行うプリアテンションネットワークを用いる。
他のコンパクトcnnは、抽出された骨格配列をアクション認識の入力として受け取り、局所空間-時間パターンとグローバル意味情報を効果的に捉えるための注意のようなメカニズムを利用する。
このアプローチを評価するために,インタラクションシナリオにおける認識タスク用に,新たなアクションデータセットを構築した。
モバイルコンピューティングプラットフォーム(Nvidia Jetson AGX Xavier)上でのデータセットと高効率(112fps/640 x 480 RGBD)の実験結果から,実時間人間ロボットインタラクションにおける動作認識に優れた適用性を示した。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Human Activity Recognition Using Cascaded Dual Attention CNN and
Bi-Directional GRU Framework [3.3721926640077795]
視覚に基づく人間の活動認識は、ビデオ分析領域において重要な研究領域の1つとして現れてきた。
本稿では,人間の行動認識における深部識別的空間的特徴と時間的特徴を利用した,計算的に効率的だが汎用的な空間時空間カスケードフレームワークを提案する。
提案手法は, 従来の動作認識手法と比較して, フレーム毎秒最大167倍の性能向上を実現している。
論文 参考訳(メタデータ) (2022-08-09T20:34:42Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Spatial Parsing and Dynamic Temporal Pooling networks for Human-Object
Interaction detection [30.896749712316222]
本稿では,空間的パーシングと動的テンポリング(SPDTP)ネットワークについて紹介する。
我々はCAD-120およびSome-Elseデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-07T07:26:06Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Exploring Temporal Context and Human Movement Dynamics for Online Action
Detection in Videos [32.88517041655816]
時間的文脈と人間の動きのダイナミクスは、オンライン行動検出に効果的に利用することができる。
提案手法は,様々な最先端アーキテクチャを用いて,抽出した特徴を適切に組み合わせて動作検出を改善する。
論文 参考訳(メタデータ) (2021-06-26T08:34:19Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z) - Simultaneous Learning from Human Pose and Object Cues for Real-Time
Activity Recognition [11.290467061493189]
本研究では,人間の行動にかかわるポーズや物体の観察から同時に学習することで,人間の行動認識に対する新しいアプローチを提案する。
提案手法は従来の手法より優れ,104Hzの処理速度で人間の行動認識のリアルタイム性能を得る。
論文 参考訳(メタデータ) (2020-03-26T22:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。