論文の概要: Tensor Representations for Action Recognition
- arxiv url: http://arxiv.org/abs/2012.14371v2
- Date: Tue, 29 Dec 2020 21:44:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 11:01:03.676572
- Title: Tensor Representations for Action Recognition
- Title(参考訳): 行動認識のためのテンソル表現
- Authors: Piotr Koniusz and Lei Wang and Anoop Cherian
- Abstract要約: シーケンスにおける人間の行動は、空間的特徴とその時間的ダイナミクスの複雑な相互作用によって特徴づけられる。
アクション認識タスクの視覚的特徴間の高次関係を捉えるための新しいテンソル表現を提案する。
我々は,高次テンソルといわゆる固有値パワー正規化(NEP)を用いて,高次事象のスペクトル検出を行う。
- 参考スコア(独自算出の注目度): 54.710267354274194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human actions in video sequences are characterized by the complex interplay
between spatial features and their temporal dynamics. In this paper, we propose
novel tensor representations for compactly capturing such higher-order
relationships between visual features for the task of action recognition. We
propose two tensor-based feature representations, viz. (i) sequence
compatibility kernel (SCK) and (ii) dynamics compatibility kernel (DCK); the
former building on the spatio-temporal correlations between features, while the
latter explicitly modeling the action dynamics of a sequence. We also explore
generalization of SCK, coined SCK(+), that operates on subsequences to capture
the local-global interplay of correlations, which can incorporate multi-modal
inputs e.g., skeleton 3D body-joints and per-frame classifier scores obtained
from deep learning models trained on videos. We introduce linearization of
these kernels that lead to compact and fast descriptors. We provide experiments
on (i) 3D skeleton action sequences, (ii) fine-grained video sequences, and
(iii) standard non-fine-grained videos. As our final representations are
tensors that capture higher-order relationships of features, they relate to
co-occurrences for robust fine-grained recognition. We use higher-order tensors
and so-called Eigenvalue Power Normalization (EPN) which have been long
speculated to perform spectral detection of higher-order occurrences, thus
detecting fine-grained relationships of features rather than merely count
features in action sequences. We prove that a tensor of order r, built from Z*
dimensional features, coupled with EPN indeed detects if at least one
higher-order occurrence is `projected' into one of its binom(Z*,r) subspaces of
dim. r represented by the tensor, thus forming a Tensor Power Normalization
metric endowed with binom(Z*,r) such `detectors'.
- Abstract(参考訳): ビデオシーケンスにおける人間の行動は、空間的特徴と時間的ダイナミクスの間の複雑な相互作用によって特徴づけられる。
本稿では,アクション認識タスクにおける視覚的特徴間の高次関係をコンパクトにキャプチャするテンソル表現を提案する。
テンソルに基づく2つの特徴表現 viz を提案する。
i)シーケンス互換性カーネル (SCK) と (ii) 動的互換性カーネル (DCK) であり、前者は特徴間の時空間相関に基づくもので、後者はシーケンスのアクションダイナミクスを明示的にモデル化する。
また、SCK(+)の一般化についても検討し、ビデオ上で訓練された深層学習モデルから得られるスケルトン3Dボディジョイントやフレーム単位の分類スコアなどのマルチモーダル入力を組み込むことができる相関関係の局所的言語間相互作用を捉える。
コンパクトで高速な記述子につながるこれらのカーネルの線形化を導入する。
我々は, (i) 3Dスケルトンアクションシーケンス, (ii) きめ細かいビデオシーケンス, (iii) 標準のきめ細かいビデオについて実験を行った。
最終表現は特徴の高次関係を捉えるテンソルであるため、ロバストな細粒度認識のための共起と関連している。
高次テンソルと、いわゆる固有値パワー正規化(epn)を用いて、高次発生のスペクトル検出を行い、アクションシーケンスの特徴を単に数えるのではなく、特徴のきめ細かい関係を検出する。
Z* 次元特徴量から構築された位数 r のテンソルが EPN と組み合わさって、少なくとも 1 つの高階発生が、その dim の binom(Z*,r) 部分空間の 1 つに「射影」されているかどうかを実際に検出することを証明する。
テンソルで表されるrは、そのような「検出者」にbinom(z*,r)を付与したテンソルパワー正規化計量を形成する。
関連論文リスト
- Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - 3D Skeleton-based Few-shot Action Recognition with JEANIE is not so
Na\"ive [28.720272938306692]
We propose a Few-shot Learning pipeline for 3D skeleton-based action recognition by Joint tEmporal and cAmera viewpoiNt alIgnmEnt。
論文 参考訳(メタデータ) (2021-12-23T16:09:23Z) - Relational Self-Attention: What's Missing in Attention for Video
Understanding [52.38780998425556]
リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。
我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2021-11-02T15:36:11Z) - High-order Tensor Pooling with Attention for Action Recognition [27.409776765260617]
グラフラプラシアン上の熱拡散過程(HDP)は固有値電力正規化(EPN)と密接に関連していることを示す。
我々は高次テンソルにEPNを装着し、高次事象のスペクトル検出器として機能し、バーストを防止する。
我々は、d次元特徴記述子から構築された位数 r のテンソルに対して、そのような検出器は、少なくとも1つの高階発生が、テンソルで表されるbinom(d,r) 部分空間に射影される可能性を与える。
論文 参考訳(メタデータ) (2021-10-11T12:32:56Z) - Continuous-Time Sequential Recommendation with Temporal Graph
Collaborative Transformer [69.0621959845251]
本稿では,定義した連続時間二部グラフ上での時間グラフシーケンスレコメンダ(TGSRec)を提案する。
TCTレイヤは、ユーザとアイテムの両方からの協調的な信号を同時にキャプチャすると同時に、シーケンシャルパターン内の時間的ダイナミクスも考慮する。
5つのデータセットの実証結果は、TGSRecが他のベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-08-14T22:50:53Z) - Leveraging Third-Order Features in Skeleton-Based Action Recognition [26.349722372701482]
スケルトン配列は軽量でコンパクトであり、エッジデバイスでのアクション認識に理想的な候補である。
最近のアクション認識法は、特徴融合のためのグラフニューラルネットワークでこれらの表現を使用して、空間時間的キューとして3D関節座標から特徴を抽出します。
関節と体部の関係を強固に捉えるため、角度の3次的特徴を現代建築に融合させることを提案します。
論文 参考訳(メタデータ) (2021-05-04T15:23:29Z) - Sequential convolutional network for behavioral pattern extraction in
gait recognition [0.7874708385247353]
個人の歩行パターンを学習するための逐次畳み込みネットワーク(SCN)を提案する。
SCNでは、時系列の中間特徴写像を理解するために行動情報抽出器(BIE)を構築している。
SCNのマルチフレームアグリゲータは、モバイル3D畳み込み層を介して、長さが不確定なシーケンス上の機能統合を実行する。
論文 参考訳(メタデータ) (2021-04-23T08:44:10Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - Analysis of Latent-Space Motion for Collaborative Intelligence [26.24508656138528]
特徴テンソルの各チャネルに存在する動きは、入力運動のスケールされたバージョンとほぼ等しいことを示す。
結果はコラボレーティブインテリジェンスアプリケーションに役立ちます。
論文 参考訳(メタデータ) (2021-02-08T06:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。