論文の概要: Attention-Oriented Action Recognition for Real-Time Human-Robot
Interaction
- arxiv url: http://arxiv.org/abs/2007.01065v1
- Date: Thu, 2 Jul 2020 12:41:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 14:28:50.180842
- Title: Attention-Oriented Action Recognition for Real-Time Human-Robot
Interaction
- Title(参考訳): リアルタイム人間-ロボットインタラクションのための注意指向行動認識
- Authors: Ziyang Song, Ziyi Yin, Zejian Yuan, Chong Zhang, Wanchao Chi, Yonggen
Ling, Shenghao Zhang
- Abstract要約: 本稿では,リアルタイムインタラクションの必要性に応えるために,アテンション指向のマルチレベルネットワークフレームワークを提案する。
具体的には、プレアテンションネットワークを使用して、低解像度でシーン内のインタラクションに大まかにフォーカスする。
他のコンパクトCNNは、抽出されたスケルトンシーケンスをアクション認識用の入力として受信する。
- 参考スコア(独自算出の注目度): 11.285529781751984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the notable progress made in action recognition tasks, not much work
has been done in action recognition specifically for human-robot interaction.
In this paper, we deeply explore the characteristics of the action recognition
task in interaction scenarios and propose an attention-oriented multi-level
network framework to meet the need for real-time interaction. Specifically, a
Pre-Attention network is employed to roughly focus on the interactor in the
scene at low resolution firstly and then perform fine-grained pose estimation
at high resolution. The other compact CNN receives the extracted skeleton
sequence as input for action recognition, utilizing attention-like mechanisms
to capture local spatial-temporal patterns and global semantic information
effectively. To evaluate our approach, we construct a new action dataset
specially for the recognition task in interaction scenarios. Experimental
results on our dataset and high efficiency (112 fps at 640 x 480 RGBD) on the
mobile computing platform (Nvidia Jetson AGX Xavier) demonstrate excellent
applicability of our method on action recognition in real-time human-robot
interaction.
- Abstract(参考訳): 行動認識タスクにおける顕著な進歩にもかかわらず、人間とロボットの相互作用に特化した行動認識では、多くの作業が行われていない。
本稿では,インタラクションシナリオにおける行動認識タスクの特徴を深く検討し,リアルタイムインタラクションの必要性を満たすための注意指向マルチレベルネットワークフレームワークを提案する。
具体的には、まず低解像度でシーン内のインタラクタに大まかに焦点を合わせ、高分解能で微細なポーズ推定を行うプリアテンションネットワークを用いる。
他のコンパクトcnnは、抽出された骨格配列をアクション認識の入力として受け取り、局所空間-時間パターンとグローバル意味情報を効果的に捉えるための注意のようなメカニズムを利用する。
このアプローチを評価するために,インタラクションシナリオにおける認識タスク用に,新たなアクションデータセットを構築した。
モバイルコンピューティングプラットフォーム(Nvidia Jetson AGX Xavier)上でのデータセットと高効率(112fps/640 x 480 RGBD)の実験結果から,実時間人間ロボットインタラクションにおける動作認識に優れた適用性を示した。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network [2.223052975765005]
本稿では,人間と物体の相互作用を自動的に認識する新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案する。
このシステムは、映像データをグラフとして検出した結果から、人間と物体の2次元または3次元空間関係を表す。
我々は,人間と物体の相互作用認識の分野で,2つの挑戦的データセット上でモデルを評価した。
論文 参考訳(メタデータ) (2024-10-10T13:39:17Z) - I-MPN: Inductive Message Passing Network for Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data [4.487146086221174]
本稿では,移動眼球追跡設定における物体の自動認識のための新しい人間中心学習アルゴリズムを提案する。
提案手法は,オブジェクト検出器と空間的関係を考慮した誘導型メッセージパッシングネットワーク(I-MPN)をシームレスに統合し,ノードプロファイル情報を活用し,オブジェクト相関を捉える。
論文 参考訳(メタデータ) (2024-06-10T13:08:31Z) - Emotion Recognition from the perspective of Activity Recognition [0.0]
人間の感情状態、行動、反応を現実世界の環境に適応させることは、潜伏した連続した次元を用いて達成できる。
感情認識システムが現実のモバイルおよびコンピューティングデバイスにデプロイされ統合されるためには、世界中の収集されたデータを考慮する必要がある。
本稿では,注目機構を備えた新しい3ストリームエンドツーエンドのディープラーニング回帰パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-24T18:53:57Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Exploring Temporal Context and Human Movement Dynamics for Online Action
Detection in Videos [32.88517041655816]
時間的文脈と人間の動きのダイナミクスは、オンライン行動検出に効果的に利用することができる。
提案手法は,様々な最先端アーキテクチャを用いて,抽出した特徴を適切に組み合わせて動作検出を改善する。
論文 参考訳(メタデータ) (2021-06-26T08:34:19Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。