論文の概要: VPN: Learning Video-Pose Embedding for Activities of Daily Living
- arxiv url: http://arxiv.org/abs/2007.03056v1
- Date: Mon, 6 Jul 2020 20:39:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 02:54:34.673352
- Title: VPN: Learning Video-Pose Embedding for Activities of Daily Living
- Title(参考訳): VPN: 日々の生活活動のためのビデオの埋め込み学習
- Authors: Srijan Das, Saurav Sharma, Rui Dai, Francois Bremond, Monique Thonnat
- Abstract要約: 最近の3DNetは、アクション全体で微妙な視覚パターンをキャプチャするには厳格すぎる。
本稿では,ビデオ・テンポラル・ネットワーク(VPN)を提案する。
実験により、VPNは大規模な人間の活動データセット上での行動分類の最先端の結果より優れていることが示された。
- 参考スコア(独自算出の注目度): 6.719751155411075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on the spatio-temporal aspect of recognizing
Activities of Daily Living (ADL). ADL have two specific properties (i) subtle
spatio-temporal patterns and (ii) similar visual patterns varying with time.
Therefore, ADL may look very similar and often necessitate to look at their
fine-grained details to distinguish them. Because the recent spatio-temporal 3D
ConvNets are too rigid to capture the subtle visual patterns across an action,
we propose a novel Video-Pose Network: VPN. The 2 key components of this VPN
are a spatial embedding and an attention network. The spatial embedding
projects the 3D poses and RGB cues in a common semantic space. This enables the
action recognition framework to learn better spatio-temporal features
exploiting both modalities. In order to discriminate similar actions, the
attention network provides two functionalities - (i) an end-to-end learnable
pose backbone exploiting the topology of human body, and (ii) a coupler to
provide joint spatio-temporal attention weights across a video. Experiments
show that VPN outperforms the state-of-the-art results for action
classification on a large scale human activity dataset: NTU-RGB+D 120, its
subset NTU-RGB+D 60, a real-world challenging human activity dataset: Toyota
Smarthome and a small scale human-object interaction dataset Northwestern UCLA.
- Abstract(参考訳): 本稿では,日常生活活動(ADL)の認識における時空間的側面に着目した。
ADLには2つの特性がある
(i)微妙な時空間パターン、及び
(ii)時間によって異なる類似の視覚パターン。
したがって、adlはよく似ていて、細かな詳細を見て区別する必要がある。
最近の時空間3D ConvNetは、アクション全体にわたる微妙な視覚パターンをキャプチャするには厳格すぎるため、我々は、新しい Video-Pose Network: VPN を提案する。
このVPNの2つの重要なコンポーネントは、空間埋め込みとアテンションネットワークである。
空間埋め込みは3DポーズとRGBキューを共通の意味空間に投影する。
これにより、アクション認識フレームワークは、両方のモダリティを利用する時空間的特徴をよりよく学習することができる。
類似行動を識別するために、注目ネットワークは2つの機能を提供している。
(i)人体のトポロジーを利用したエンドツーエンド学習可能なポーズバックボーン
(ii)ビデオを通して時空間的注意重みを与えるためのカプラ
NTU-RGB+D 120、そのサブセットであるNTU-RGB+D 60、実際の人間の活動データセットであるToyota Smarthomeと、小規模の人間とオブジェクトのインタラクションデータセットであるUCLA。
関連論文リスト
- Improving Video Violence Recognition with Human Interaction Learning on
3D Skeleton Point Clouds [88.87985219999764]
我々は骨格点の新たな視点からビデオ暴力認識法を開発した。
まず、ビデオから抽出した人間の配列から3Dスケルトン点雲を定式化する。
そして、これらの3Dスケルトン点雲上で相互作用学習を行う。
論文 参考訳(メタデータ) (2023-08-26T12:55:18Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - VPN++: Rethinking Video-Pose embeddings for understanding Activities of
Daily Living [8.765045867163648]
ポーズ駆動型注意メカニズムの拡張を提案する: Video-Pose Network (VPN)
VPN++は有効であるだけでなく、ノイズの多いPosesに対して高速なアップと高いレジリエンスを提供する。
論文 参考訳(メタデータ) (2021-05-17T20:19:47Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Decoupled Spatial Temporal Graphs for Generic Visual Grounding [120.66884671951237]
この研究は、与えられた表現を満たすすべてのオブジェクトをマイニングすることを目的とした、より一般的な設定、一般的な視覚接地を調査します。
我々は,(1)空間表現と時間表現を分解し,すべての側面の手がかりを収集し,正確な接地を行う,単純かつ効果的なアプローチであるdstgを提案する。
さらに、遠距離ビデオによる参照ケースに挑戦する、新しいビデオデータセットであるGVGについて詳しく述べる。
論文 参考訳(メタデータ) (2021-03-18T11:56:29Z) - Coarse Temporal Attention Network (CTA-Net) for Driver's Activity
Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。
我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。
モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文 参考訳(メタデータ) (2021-01-17T10:15:37Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Depth Based Semantic Scene Completion with Position Importance Aware
Loss [52.06051681324545]
PALNetはセマンティックシーン補完のための新しいハイブリッドネットワークである。
詳細な深度情報を用いて,多段階から2次元特徴と3次元特徴の両方を抽出する。
オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。
論文 参考訳(メタデータ) (2020-01-29T07:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。