論文の概要: Efficient Modelling Across Time of Human Actions and Interactions
- arxiv url: http://arxiv.org/abs/2110.02120v1
- Date: Tue, 5 Oct 2021 15:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 17:32:22.911713
- Title: Efficient Modelling Across Time of Human Actions and Interactions
- Title(参考訳): 人間の行動と相互作用の時間にまたがる効率的なモデリング
- Authors: Alexandros Stergiou
- Abstract要約: 3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
- 参考スコア(独自算出の注目度): 92.39082696657874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This thesis focuses on video understanding for human action and interaction
recognition. We start by identifying the main challenges related to action
recognition from videos and review how they have been addressed by current
methods.
Based on these challenges, and by focusing on the temporal aspect of actions,
we argue that current fixed-sized spatio-temporal kernels in 3D convolutional
neural networks (CNNs) can be improved to better deal with temporal variations
in the input. Our contributions are based on the enlargement of the
convolutional receptive fields through the introduction of spatio-temporal
size-varying segments of videos, as well as the discovery of the local feature
relevance over the entire video sequence. The resulting extracted features
encapsulate information that includes the importance of local features across
multiple temporal durations, as well as the entire video sequence.
Subsequently, we study how we can better handle variations between classes of
actions, by enhancing their feature differences over different layers of the
architecture. The hierarchical extraction of features models variations of
relatively similar classes the same as very dissimilar classes. Therefore,
distinctions between similar classes are less likely to be modelled. The
proposed approach regularises feature maps by amplifying features that
correspond to the class of the video that is processed. We move away from
class-agnostic networks and make early predictions based on feature
amplification mechanism.
The proposed approaches are evaluated on several benchmark action recognition
datasets and show competitive results. In terms of performance, we compete with
the state-of-the-art while being more efficient in terms of GFLOPs.
Finally, we present a human-understandable approach aimed at providing visual
explanations for features learned over spatio-temporal networks.
- Abstract(参考訳): この論文は、人間の行動と相互作用認識のためのビデオ理解に焦点を当てている。
まず、ビデオからのアクション認識に関する主な課題を特定し、それらが現在の方法でどのように対処されたかを確認する。
これらの課題に基づき, 行動の時間的側面に着目し, 3次元畳み込みニューラルネットワーク (cnns) における現在の固定サイズの時空間カーネルは, 入力の時間的変動をよりよく扱えるように改善できると主張する。
私たちの貢献は,映像の時空間的サイズ変化セグメントの導入による畳み込み受容領域の拡大と,映像シーケンス全体の局所的特徴の関連性の発見に基づいている。
抽出された特徴は、複数の時間的期間にわたる局所的特徴の重要性、ビデオシーケンス全体を含む情報をカプセル化する。
その後、アーキテクチャの異なる層にまたがる特徴差を強化することにより、アクションのクラス間のバリエーションをよりうまく処理する方法を検討する。
特徴量の階層的抽出は、非常に異なるクラスと同じ比較的類似したクラスのバリエーションをモデル化する。
したがって、類似クラス間の区別はモデル化されにくい。
提案手法は、処理されるビデオのクラスに対応する特徴を増幅することで特徴マップを正規化する。
我々は、クラスに依存しないネットワークから離れ、特徴増幅機構に基づいた早期予測を行う。
提案手法は,いくつかのベンチマーク行動認識データセット上で評価され,競合結果を示す。
性能面では、GFLOPの点でより効率的でありながら、最先端技術と競合する。
最後に,時空間ネットワーク上で学習した特徴を視覚的に説明することを目的とした,人間理解可能なアプローチを提案する。
関連論文リスト
- Improving Video Violence Recognition with Human Interaction Learning on
3D Skeleton Point Clouds [88.87985219999764]
我々は骨格点の新たな視点からビデオ暴力認識法を開発した。
まず、ビデオから抽出した人間の配列から3Dスケルトン点雲を定式化する。
そして、これらの3Dスケルトン点雲上で相互作用学習を行う。
論文 参考訳(メタデータ) (2023-08-26T12:55:18Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition [68.53072549422775]
学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T19:28:54Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Class-Incremental Learning for Action Recognition in Videos [44.923719189467164]
ビデオ認識のためのクラス増分学習の文脈において、破滅的な忘れの問題に取り組む。
筆者らのフレームワークは、時間チャンネルの重要度マップを導入し、重要度マップを利用して、入ってくるサンプルの表現を学習することで、この課題に対処する。
提案手法は,UCF101, HMDB51, Some-Something V2データセット上に構築されたクラスインクリメンタルな行動認識ベンチマークを新たに分割する手法である。
論文 参考訳(メタデータ) (2022-03-25T12:15:49Z) - Sequential convolutional network for behavioral pattern extraction in
gait recognition [0.7874708385247353]
個人の歩行パターンを学習するための逐次畳み込みネットワーク(SCN)を提案する。
SCNでは、時系列の中間特徴写像を理解するために行動情報抽出器(BIE)を構築している。
SCNのマルチフレームアグリゲータは、モバイル3D畳み込み層を介して、長さが不確定なシーケンス上の機能統合を実行する。
論文 参考訳(メタデータ) (2021-04-23T08:44:10Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Coarse Temporal Attention Network (CTA-Net) for Driver's Activity
Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。
我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。
モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文 参考訳(メタデータ) (2021-01-17T10:15:37Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。