論文の概要: Regional Attention Network (RAN) for Head Pose and Fine-grained Gesture
Recognition
- arxiv url: http://arxiv.org/abs/2101.06634v1
- Date: Sun, 17 Jan 2021 10:14:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 20:22:55.297801
- Title: Regional Attention Network (RAN) for Head Pose and Fine-grained Gesture
Recognition
- Title(参考訳): 頭部ポーズと細粒度ジェスチャー認識のための地域注意ネットワーク(ran)
- Authors: Ardhendu Behera, Zachary Wharton, Morteza Ghahremani, Swagat Kumar,
Nik Bessis
- Abstract要約: 本研究では,CNN(Convolutional Neural Network) である RAN (End-to-end textbfRegional Attention Network) を提案する。
我々の領域は1つ以上の連続した細胞から構成されており、HOG(Histogram of Oriented Gradient)ディスクリプタの計算に使用される戦略に適応している。
提案手法は、異なる指標のかなりの差で最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 9.131161856493486
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Affect is often expressed via non-verbal body language such as
actions/gestures, which are vital indicators for human behaviors. Recent
studies on recognition of fine-grained actions/gestures in monocular images
have mainly focused on modeling spatial configuration of body parts
representing body pose, human-objects interactions and variations in local
appearance. The results show that this is a brittle approach since it relies on
accurate body parts/objects detection. In this work, we argue that there exist
local discriminative semantic regions, whose "informativeness" can be evaluated
by the attention mechanism for inferring fine-grained gestures/actions. To this
end, we propose a novel end-to-end \textbf{Regional Attention Network (RAN)},
which is a fully Convolutional Neural Network (CNN) to combine multiple
contextual regions through attention mechanism, focusing on parts of the images
that are most relevant to a given task. Our regions consist of one or more
consecutive cells and are adapted from the strategies used in computing HOG
(Histogram of Oriented Gradient) descriptor. The model is extensively evaluated
on ten datasets belonging to 3 different scenarios: 1) head pose recognition,
2) drivers state recognition, and 3) human action and facial expression
recognition. The proposed approach outperforms the state-of-the-art by a
considerable margin in different metrics.
- Abstract(参考訳): 影響はしばしば、人間の行動にとって重要な指標である行動/妊娠などの非言語体語を介して表現される。
近年,単眼画像における細粒度動作の認識に関する研究は,身体のポーズ,人間と物体の相互作用,局所的な外観の変化を表す身体部位の空間的構成のモデル化に主眼を置いている。
その結果,身体の正確な部位や物体の検出に頼っているため,これは脆いアプローチであることがわかった。
本研究は,細粒度なジェスチャーや動作を推測するための注意機構によって評価できる局所的な判別的意味領域が存在することを論じる。
そこで本研究では,あるタスクに最も関係のある画像の一部に焦点をあて,注意機構を通じて複数のコンテキスト領域を結合する,完全な畳み込みニューラルネットワーク(CNN)である,新しいエンドツーエンドの‘textbf{Regional Attention Network’を提案する。
我々の領域は1つ以上の連続した細胞から構成されており、HOG(Histogram of Oriented Gradient)ディスクリプタの計算に使用される戦略に適応している。
このモデルは,1)頭部ポーズ認識,2)ドライバーの状態認識,3)人間の行動と表情認識の3つのシナリオに属する10のデータセットで広く評価されている。
提案手法は、異なる指標のかなりの差で最先端の手法より優れている。
関連論文リスト
- Finding Shared Decodable Concepts and their Negations in the Brain [4.111712524255376]
我々は、自然視画像観察中に脳の反応をCLIP埋め込みにマッピングする非常に正確なコントラストモデルを訓練する。
次に、DBSCANクラスタリングアルゴリズムの新たな適応を用いて、参加者固有のコントラストモデルパラメータをクラスタリングする。
各SDCクラスタに最も多く,最も関連付けられていない画像を調べることで,各SDCのセマンティック特性についてさらなる知見が得られる。
論文 参考訳(メタデータ) (2024-05-27T21:28:26Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Collaborative Feature Learning for Fine-grained Facial Forgery Detection
and Segmentation [56.73855202368894]
偽造検出に関する以前の研究は、主に顔全体に焦点を当てていた。
近年の偽造法では、重要な顔成分を編集し、他の成分をそのまま維持する手法が開発されている。
ファリシファイドコンポーネントの操作とセグメンテーションを同時に検出するための協調的特徴学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-17T08:49:11Z) - Skeletal Human Action Recognition using Hybrid Attention based Graph
Convolutional Network [3.261599248682793]
相対的距離と相対的角度情報に基づいて局所的注意マップをグローバルに拡張する適応型空間的注意層を提案する。
我々は,頭部,手,足を結ぶ新しい初期グラフ隣接行列を設計し,行動認識精度の点で目に見える改善点を示す。
提案モデルは,日常生活における人間活動の分野における大規模かつ挑戦的な2つのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2022-07-12T12:22:21Z) - KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D
Correspondences [77.56222946832237]
画像中の複数の人物の密着度を検出するための新しい枠組みを提案する。
提案手法は知識伝達ネットワーク(KTN)の2つの問題に対処する。
特徴解像度を同時に維持し、背景画素を抑圧し、この戦略は精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-06-21T03:11:37Z) - Head and eye egocentric gesture recognition for human-robot interaction
using eyewear cameras [4.344337854565144]
この研究は人間のジェスチャー認識の問題に対処する。
特に、頭部と眼のジェスチャーに焦点を合わせ、アイウェアカメラを用いた自我中心(ファーストパーソナリティ)の視点を採用する。
2つの時間的粒度で動作する動きに基づく認識手法を提案する。
論文 参考訳(メタデータ) (2022-01-27T13:26:05Z) - Understanding Character Recognition using Visual Explanations Derived
from the Human Visual System and Deep Networks [6.734853055176694]
深層ニューラルネットワークの情報収集戦略における合同性,あるいはその欠如について検討する。
深層学習モデルは、人間が正しく分類された文字に対して固定した文字の類似した領域を考慮に入れた。
本稿では、視線追跡実験から得られた視覚的固定マップを、モデルが関連する文字領域に焦点を合わせるための監督入力として用いることを提案する。
論文 参考訳(メタデータ) (2021-08-10T10:09:37Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z) - Diagnosing Rarity in Human-Object Interaction Detection [6.129776019898014]
ヒューマン・オブジェクト・インタラクション(HOI)検出はコンピュータビジョンにおける中核的なタスクである。
目標は、すべての人間と物体のペアをローカライズし、それらの相互作用を認識することである。
動詞「名詞」によって定義される相互作用は、長い尾の視覚的認識課題につながる。
論文 参考訳(メタデータ) (2020-06-10T08:35:29Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z) - Structured Landmark Detection via Topology-Adapting Deep Graph Learning [75.20602712947016]
解剖学的顔と医学的ランドマーク検出のための新しいトポロジ適応深層グラフ学習手法を提案する。
提案手法は局所像特徴と大域形状特徴の両方を利用するグラフ信号を構成する。
3つの公開顔画像データセット(WFLW、300W、COFW-68)と3つの現実世界のX線医学データセット(ケパロメトリ、ハンド、ペルビス)で実験を行った。
論文 参考訳(メタデータ) (2020-04-17T11:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。