論文の概要: Video Action Recognition Collaborative Learning with Dynamics via
PSO-ConvNet Transformer
- arxiv url: http://arxiv.org/abs/2302.09187v1
- Date: Fri, 17 Feb 2023 23:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 19:58:43.299568
- Title: Video Action Recognition Collaborative Learning with Dynamics via
PSO-ConvNet Transformer
- Title(参考訳): PSO-ConvNet変換器を用いた動画像認識協調学習
- Authors: Nguyen Huu Phong, Bernardete Ribeiro
- Abstract要約: PSO-ConvNetモデルを用いて映像中の行動の学習を行う。
我々は、ConvNetとTransformerやRecurrent Neural Networksといった最先端の時間的手法を統合することで、ビデオへのアプローチを拡張した。
その結果、UCF-101データセットで最大9%の改善が達成された。
- 参考スコア(独自算出の注目度): 1.5990720051907859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human Action Recognition (HAR) involves the task of categorizing actions
present in video sequences. Although it presents interesting problems, it
remains one of the most challenging domains in pattern recognition.
Convolutional Neural Networks (ConvNets) have demonstrated exceptional success
in image recognition and related areas. However, these advanced techniques are
not always directly applicable to HAR, as the consideration of temporal
features is crucial. In this paper, we present a dynamic PSO-ConvNet model for
learning actions in video, drawing on our recent research in image recognition.
Our methods are based on a framework where the weight vector of each neural
network serves as the position of a particle in phase space, and particles
exchange their current weight vectors and gradient estimates of the Loss
function. We extend the approach to video by integrating a ConvNet with
state-of-the-art temporal methods such as Transformer and Recurrent Neural
Networks. The results reveal substantial advancements, with improvements of up
to 9% on UCF-101 dataset. The code is available at
https://github.com/leonlha/Video-Action-Recognition-via-PSO-ConvNet-Transformer-Collaborative-Learni ng-with-Dynamics.
- Abstract(参考訳): HAR(Human Action Recognition)は、ビデオシーケンスに存在するアクションを分類するタスクである。
興味深い問題があるが、パターン認識において最も困難な領域の1つである。
Convolutional Neural Networks (ConvNets) は画像認識や関連分野において極めて成功している。
しかし、時間的特徴の考慮が不可欠であるため、これらの高度な技術は必ずしもHARに直接適用されない。
本稿では,映像における学習行動のための動的pso-convnetモデルを提案する。
本手法は,各ニューラルネットワークの重みベクトルが相空間における粒子の位置として機能し,粒子が現在の重みベクトルとロス関数の勾配推定を交換する枠組みに基づいている。
我々は、ConvNetとTransformerやRecurrent Neural Networksといった最先端の時間的手法を統合することで、ビデオへのアプローチを拡張する。
その結果、UCF-101データセットで最大9%の改善が達成された。
コードはhttps://github.com/leonlha/Video-Action-Recognition-via-PSO-ConvNet-Transformer-Collaborative-Learni ng-with-Dynamicsで公開されている。
関連論文リスト
- An Animation-based Augmentation Approach for Action Recognition from Discontinuous Video [11.293897932762809]
コンピュータビジョンの重要な構成要素である行動認識は、複数のアプリケーションにおいて重要な役割を果たす。
CNNは、不連続なビデオフレームでトレーニングされた場合、パフォーマンスの低下に悩まされる。
この問題を克服するために、一連の高度な技術を用いた4Aパイプラインを紹介します。
論文 参考訳(メタデータ) (2024-04-10T04:59:51Z) - ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos [4.736059095502584]
本研究は,半教師付き行動認識のためのコントラスト学習を用いたクロスアーキテクチャ擬似ラベルを用いた新しい手法を提案する。
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)とビデオトランスフォーマー(VIT)を用いて,アクション表現の異なる側面を捉える,新しいクロスアーキテクチャ手法を提案する。
論文 参考訳(メタデータ) (2024-04-09T12:09:56Z) - Deep Learning Approaches for Human Action Recognition in Video Data [0.8080830346931087]
本研究は、この課題に対処するために、様々なディープラーニングモデルの詳細な分析を行う。
我々は、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、Two-Stream ConvNetsに焦点を当てる。
本研究の結果は,頑健な人間の行動認識を実現するための複合モデルの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-03-11T15:31:25Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Self-Supervised Learning via multi-Transformation Classification for
Action Recognition [10.676377556393527]
マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。
ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
論文 参考訳(メタデータ) (2021-02-20T16:11:26Z) - Complex Human Action Recognition in Live Videos Using Hybrid FR-DL
Method [1.027974860479791]
入力シーケンス中の代表フレームの自動選択により,前処理フェーズの課題に対処する。
本稿では,バックグラウンドサブトラクションとHOGを用いたハイブリッド手法を提案し,続いて深層ニューラルネットワークと骨格モデリング手法を適用した。
本稿では,このモデルをFR-DL(Feature Reduction & Deep Learning based action recognition method)と呼ぶ。
論文 参考訳(メタデータ) (2020-07-06T15:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。