論文の概要: Video Action Recognition Collaborative Learning with Dynamics via
PSO-ConvNet Transformer
- arxiv url: http://arxiv.org/abs/2302.09187v2
- Date: Sun, 10 Sep 2023 08:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 22:22:00.901997
- Title: Video Action Recognition Collaborative Learning with Dynamics via
PSO-ConvNet Transformer
- Title(参考訳): PSO-ConvNet変換器を用いた動画像認識協調学習
- Authors: Nguyen Huu Phong, Bernardete Ribeiro
- Abstract要約: ビデオにおける学習行動のための新しいPSO-ConvNetモデルを提案する。
UCF-101データセットに対する実験結果から,最大9%の精度向上が得られた。
全体として、我々の動的PSO-ConvNetモデルは、人間の行動認識を改善するための有望な方向を提供する。
- 参考スコア(独自算出の注目度): 1.876462046907555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing human actions in video sequences, known as Human Action
Recognition (HAR), is a challenging task in pattern recognition. While
Convolutional Neural Networks (ConvNets) have shown remarkable success in image
recognition, they are not always directly applicable to HAR, as temporal
features are critical for accurate classification. In this paper, we propose a
novel dynamic PSO-ConvNet model for learning actions in videos, building on our
recent work in image recognition. Our approach leverages a framework where the
weight vector of each neural network represents the position of a particle in
phase space, and particles share their current weight vectors and gradient
estimates of the Loss function. To extend our approach to video, we integrate
ConvNets with state-of-the-art temporal methods such as Transformer and
Recurrent Neural Networks. Our experimental results on the UCF-101 dataset
demonstrate substantial improvements of up to 9% in accuracy, which confirms
the effectiveness of our proposed method. In addition, we conducted experiments
on larger and more variety of datasets including Kinetics-400 and HMDB-51 and
obtained preference for Collaborative Learning in comparison with
Non-Collaborative Learning (Individual Learning). Overall, our dynamic
PSO-ConvNet model provides a promising direction for improving HAR by better
capturing the spatio-temporal dynamics of human actions in videos. The code is
available at
https://github.com/leonlha/Video-Action-Recognition-Collaborative-Learning-with-Dynamics-via-PSO-Con vNet-Transformer.
- Abstract(参考訳): human action recognition(har)と呼ばれるビデオシーケンスにおけるヒューマンアクションの認識は、パターン認識において難しい課題である。
畳み込みニューラルネットワーク(convnets)は画像認識に著しく成功したが、時間的特徴が正確な分類に不可欠であるため、常にharに当てはまるとは限らない。
本稿では,映像認識における最近の研究に基づいて,映像中の動作を学習するための動的PSO-ConvNetモデルを提案する。
提案手法では,各ニューラルネットワークの重みベクトルが位相空間における粒子の位置を表し,粒子が現在の重みベクトルと損失関数の勾配推定を共有する枠組みを利用する。
ビデオへのアプローチを拡張するために、ConvNetsとTransformerやRecurrent Neural Networksといった最先端の時間的手法を統合する。
UCF-101データセットに対する実験結果から,最大9%の精度向上が得られ,提案手法の有効性が確認された。
さらに, Kinetics-400 や HMDB-51 など多種多様なデータセットの実験を行い,非協調学習(Individual Learning)と比較して協調学習を好んだ。
全体として、我々の動的PSO-ConvNetモデルは、ビデオ中の人間の行動の時空間的ダイナミクスをよりよく捉え、HARを改善するための有望な方向を提供する。
コードはhttps://github.com/leonlha/Video-Action-Recognition-Collaborative-Learning-with-Dynamics-via-PSO-Con vNet-Transformerで公開されている。
関連論文リスト
- An Animation-based Augmentation Approach for Action Recognition from Discontinuous Video [11.293897932762809]
コンピュータビジョンの重要な構成要素である行動認識は、複数のアプリケーションにおいて重要な役割を果たす。
CNNは、不連続なビデオフレームでトレーニングされた場合、パフォーマンスの低下に悩まされる。
この問題を克服するために、一連の高度な技術を用いた4Aパイプラインを紹介します。
論文 参考訳(メタデータ) (2024-04-10T04:59:51Z) - ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos [4.736059095502584]
本研究は,半教師付き行動認識のためのコントラスト学習を用いたクロスアーキテクチャ擬似ラベルを用いた新しい手法を提案する。
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)とビデオトランスフォーマー(VIT)を用いて,アクション表現の異なる側面を捉える,新しいクロスアーキテクチャ手法を提案する。
論文 参考訳(メタデータ) (2024-04-09T12:09:56Z) - Deep Learning Approaches for Human Action Recognition in Video Data [0.8080830346931087]
本研究は、この課題に対処するために、様々なディープラーニングモデルの詳細な分析を行う。
我々は、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、Two-Stream ConvNetsに焦点を当てる。
本研究の結果は,頑健な人間の行動認識を実現するための複合モデルの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-03-11T15:31:25Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Self-Supervised Learning via multi-Transformation Classification for
Action Recognition [10.676377556393527]
マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。
ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
論文 参考訳(メタデータ) (2021-02-20T16:11:26Z) - Complex Human Action Recognition in Live Videos Using Hybrid FR-DL
Method [1.027974860479791]
入力シーケンス中の代表フレームの自動選択により,前処理フェーズの課題に対処する。
本稿では,バックグラウンドサブトラクションとHOGを用いたハイブリッド手法を提案し,続いて深層ニューラルネットワークと骨格モデリング手法を適用した。
本稿では,このモデルをFR-DL(Feature Reduction & Deep Learning based action recognition method)と呼ぶ。
論文 参考訳(メタデータ) (2020-07-06T15:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。