論文の概要: Tensor Representations for Action Recognition
- arxiv url: http://arxiv.org/abs/2012.14371v2
- Date: Tue, 29 Dec 2020 21:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 11:01:03.676572
- Title: Tensor Representations for Action Recognition
- Title(参考訳): 行動認識のためのテンソル表現
- Authors: Piotr Koniusz and Lei Wang and Anoop Cherian
- Abstract要約: シーケンスにおける人間の行動は、空間的特徴とその時間的ダイナミクスの複雑な相互作用によって特徴づけられる。
アクション認識タスクの視覚的特徴間の高次関係を捉えるための新しいテンソル表現を提案する。
我々は,高次テンソルといわゆる固有値パワー正規化(NEP)を用いて,高次事象のスペクトル検出を行う。
- 参考スコア(独自算出の注目度): 54.710267354274194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human actions in video sequences are characterized by the complex interplay
between spatial features and their temporal dynamics. In this paper, we propose
novel tensor representations for compactly capturing such higher-order
relationships between visual features for the task of action recognition. We
propose two tensor-based feature representations, viz. (i) sequence
compatibility kernel (SCK) and (ii) dynamics compatibility kernel (DCK); the
former building on the spatio-temporal correlations between features, while the
latter explicitly modeling the action dynamics of a sequence. We also explore
generalization of SCK, coined SCK(+), that operates on subsequences to capture
the local-global interplay of correlations, which can incorporate multi-modal
inputs e.g., skeleton 3D body-joints and per-frame classifier scores obtained
from deep learning models trained on videos. We introduce linearization of
these kernels that lead to compact and fast descriptors. We provide experiments
on (i) 3D skeleton action sequences, (ii) fine-grained video sequences, and
(iii) standard non-fine-grained videos. As our final representations are
tensors that capture higher-order relationships of features, they relate to
co-occurrences for robust fine-grained recognition. We use higher-order tensors
and so-called Eigenvalue Power Normalization (EPN) which have been long
speculated to perform spectral detection of higher-order occurrences, thus
detecting fine-grained relationships of features rather than merely count
features in action sequences. We prove that a tensor of order r, built from Z*
dimensional features, coupled with EPN indeed detects if at least one
higher-order occurrence is `projected' into one of its binom(Z*,r) subspaces of
dim. r represented by the tensor, thus forming a Tensor Power Normalization
metric endowed with binom(Z*,r) such `detectors'.
- Abstract(参考訳): ビデオシーケンスにおける人間の行動は、空間的特徴と時間的ダイナミクスの間の複雑な相互作用によって特徴づけられる。
本稿では,アクション認識タスクにおける視覚的特徴間の高次関係をコンパクトにキャプチャするテンソル表現を提案する。
テンソルに基づく2つの特徴表現 viz を提案する。
i)シーケンス互換性カーネル (SCK) と (ii) 動的互換性カーネル (DCK) であり、前者は特徴間の時空間相関に基づくもので、後者はシーケンスのアクションダイナミクスを明示的にモデル化する。
また、SCK(+)の一般化についても検討し、ビデオ上で訓練された深層学習モデルから得られるスケルトン3Dボディジョイントやフレーム単位の分類スコアなどのマルチモーダル入力を組み込むことができる相関関係の局所的言語間相互作用を捉える。
コンパクトで高速な記述子につながるこれらのカーネルの線形化を導入する。
我々は, (i) 3Dスケルトンアクションシーケンス, (ii) きめ細かいビデオシーケンス, (iii) 標準のきめ細かいビデオについて実験を行った。
最終表現は特徴の高次関係を捉えるテンソルであるため、ロバストな細粒度認識のための共起と関連している。
高次テンソルと、いわゆる固有値パワー正規化(epn)を用いて、高次発生のスペクトル検出を行い、アクションシーケンスの特徴を単に数えるのではなく、特徴のきめ細かい関係を検出する。
Z* 次元特徴量から構築された位数 r のテンソルが EPN と組み合わさって、少なくとも 1 つの高階発生が、その dim の binom(Z*,r) 部分空間の 1 つに「射影」されているかどうかを実際に検出することを証明する。
テンソルで表されるrは、そのような「検出者」にbinom(z*,r)を付与したテンソルパワー正規化計量を形成する。
関連論文リスト
- S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。
我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。
我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-07-20T07:26:15Z) - 3D Skeleton-based Few-shot Action Recognition with JEANIE is not so
Na\"ive [28.720272938306692]
We propose a Few-shot Learning pipeline for 3D skeleton-based action recognition by Joint tEmporal and cAmera viewpoiNt alIgnmEnt。
論文 参考訳(メタデータ) (2021-12-23T16:09:23Z) - High-order Tensor Pooling with Attention for Action Recognition [39.22510412349891]
ニューラルネットワークによって形成される特徴ベクトルの高次統計値を取得する。
テンソル記述子を形成するために,エンドツーエンドの2次・高次プールを提案する。
論文 参考訳(メタデータ) (2021-10-11T12:32:56Z) - Sequential convolutional network for behavioral pattern extraction in
gait recognition [0.7874708385247353]
個人の歩行パターンを学習するための逐次畳み込みネットワーク(SCN)を提案する。
SCNでは、時系列の中間特徴写像を理解するために行動情報抽出器(BIE)を構築している。
SCNのマルチフレームアグリゲータは、モバイル3D畳み込み層を介して、長さが不確定なシーケンス上の機能統合を実行する。
論文 参考訳(メタデータ) (2021-04-23T08:44:10Z) - Out-of-time-order correlations and the fine structure of eigenstate
thermalisation [58.720142291102135]
量子情報力学と熱化を特徴付けるツールとして、OTOC(Out-of-time-orderor)が確立されている。
我々は、OTOCが、ETH(Eigenstate Thermalisation hypothesis)の詳細な詳細を調査するための、本当に正確なツールであることを明確に示している。
無限温度状態における局所作用素の和からなる可観測物の一般クラスに対して、$omega_textrmGOE$の有限サイズスケーリングを推定する。
論文 参考訳(メタデータ) (2021-03-01T17:51:46Z) - Analysis of Latent-Space Motion for Collaborative Intelligence [26.24508656138528]
特徴テンソルの各チャネルに存在する動きは、入力運動のスケールされたバージョンとほぼ等しいことを示す。
結果はコラボレーティブインテリジェンスアプリケーションに役立ちます。
論文 参考訳(メタデータ) (2021-02-08T06:22:07Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。