論文の概要: Revisiting spatio-temporal layouts for compositional action recognition
- arxiv url: http://arxiv.org/abs/2111.01936v1
- Date: Tue, 2 Nov 2021 23:04:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 23:46:49.626445
- Title: Revisiting spatio-temporal layouts for compositional action recognition
- Title(参考訳): 作曲行動認識のための時空間レイアウトの再検討
- Authors: Gorjan Radevski, Marie-Francine Moens, Tinne Tuytelaars
- Abstract要約: 私たちは、アクション認識にオブジェクト中心のアプローチを取ります。
本論文の主な焦点は、合成/ファウショット動作認識である。
レイアウトモデルとの融合による外観モデルの性能向上を実証する。
- 参考スコア(独自算出の注目度): 63.04778884595353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing human actions is fundamentally a spatio-temporal reasoning
problem, and should be, at least to some extent, invariant to the appearance of
the human and the objects involved. Motivated by this hypothesis, in this work,
we take an object-centric approach to action recognition. Multiple works have
studied this setting before, yet it remains unclear (i) how well a carefully
crafted, spatio-temporal layout-based method can recognize human actions, and
(ii) how, and when, to fuse the information from layout and appearance-based
models. The main focus of this paper is compositional/few-shot action
recognition, where we advocate the usage of multi-head attention (proven to be
effective for spatial reasoning) over spatio-temporal layouts, i.e.,
configurations of object bounding boxes. We evaluate different schemes to
inject video appearance information to the system, and benchmark our approach
on background cluttered action recognition. On the Something-Else and Action
Genome datasets, we demonstrate (i) how to extend multi-head attention for
spatio-temporal layout-based action recognition, (ii) how to improve the
performance of appearance-based models by fusion with layout-based models,
(iii) that even on non-compositional background-cluttered video datasets, a
fusion between layout- and appearance-based models improves the performance.
- Abstract(参考訳): 人間の行動を認識することは基本的に時空間的推論の問題であり、少なくともある程度は、人間と対象の出現に不変であるべきである。
この仮説に動機づけられたこの研究では、アクション認識にオブジェクト中心のアプローチを採用する。
これまで複数の作品がこの設定を研究してきたが、いまだにはっきりしていない
(i)精巧に作られた時空間的レイアウトに基づく手法がいかに人間の行動を認識するか、
(II)レイアウトと外見に基づくモデルから情報を融合させる方法と時期
本稿では,空間的推論に有効であるマルチヘッド・アテンション(マルチヘッド・アテンション)を,時空間的レイアウト,すなわちオブジェクトバウンディングボックスの構成に対して用いることを提唱する。
システムへの映像出現情報を注入するための異なるスキームを評価し,背景クラッタ化動作認識に対するアプローチをベンチマークした。
Something-ElseとAction Genomeのデータセットについて
(i)時空間レイアウトに基づく行動認識のためのマルチヘッドアテンションの拡張方法
(ii)レイアウトベースモデルとの融合による外観ベースモデルの性能向上方法
(3)非合成背景クラッタビデオデータセットにおいても,レイアウトモデルと外観モデルとの融合により性能が向上する。
関連論文リスト
- Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose
Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。
ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文 参考訳(メタデータ) (2023-07-31T14:00:23Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Object-centric and memory-guided normality reconstruction for video
anomaly detection [56.64792194894702]
本稿では,ビデオ監視における異常検出問題に対処する。
異常事象の固有な規則性と不均一性のため、問題は正規性モデリング戦略と見なされる。
我々のモデルは、トレーニング中に異常なサンプルを見ることなく、オブジェクト中心の正規パターンを学習する。
論文 参考訳(メタデータ) (2022-03-07T19:28:39Z) - Self-Attention Neural Bag-of-Features [103.70855797025689]
我々は最近導入された2D-Attentionの上に構築し、注意学習方法論を再構築する。
本稿では,関連情報を強調した2次元目視マスクを学習する機能・時間的アテンション機構を提案する。
論文 参考訳(メタデータ) (2022-01-26T17:54:14Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Recurrent Attention Models with Object-centric Capsule Representation
for Multi-object Recognition [4.143091738981101]
反復的な注目を伴うエンコーダ・デコーダモデルにおけるオブジェクト中心の隠れ表現は、注意と認識の効果的な統合をもたらすことを示す。
我々の研究は、再帰的なオブジェクト中心表現を注意を向ける計画に組み込むための一般的なアーキテクチャへの一歩を踏み出した。
論文 参考訳(メタデータ) (2021-10-11T01:41:21Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。