論文の概要: Extending Temporal Data Augmentation for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2211.04888v1
- Date: Wed, 9 Nov 2022 13:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:16:05.594550
- Title: Extending Temporal Data Augmentation for Video Action Recognition
- Title(参考訳): 映像行動認識のための時間的データ拡張
- Authors: Artjoms Gorpincenko, Michal Mackiewicz
- Abstract要約: 本研究では,空間領域と時間領域の関係を強化する新しい手法を提案する。
その結果,UCF-101データセットとHMDB-51データセットのTop-1およびTop-5設定では,ビデオアクション認識結果がそれぞれより優れていた。
- 参考スコア(独自算出の注目度): 1.3807859854345832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pixel space augmentation has grown in popularity in many Deep Learning areas,
due to its effectiveness, simplicity, and low computational cost. Data
augmentation for videos, however, still remains an under-explored research
topic, as most works have been treating inputs as stacks of static images
rather than temporally linked series of data. Recently, it has been shown that
involving the time dimension when designing augmentations can be superior to
its spatial-only variants for video action recognition. In this paper, we
propose several novel enhancements to these techniques to strengthen the
relationship between the spatial and temporal domains and achieve a deeper
level of perturbations. The video action recognition results of our techniques
outperform their respective variants in Top-1 and Top-5 settings on the UCF-101
and the HMDB-51 datasets.
- Abstract(参考訳): ピクセル空間拡張は、その有効性、単純性、計算コストの低さから、多くの深層学習領域で人気が高まっている。
しかし、ビデオのデータ拡張は依然として未調査の研究課題であり、ほとんどの作品では、入力を時系列に連結されたデータではなく、静的画像のスタックとして扱っている。
近年,拡張設計時の時間次元の関与が,映像動作認識のための空間のみの変種よりも優れていることが示されている。
本稿では,空間領域と時間領域の関係を強化し,より深い摂動レベルを達成するために,これらの手法の新たな拡張を提案する。
その結果,UCF-101データセットとHMDB-51データセットのTop-1およびTop-5設定では,ビデオアクション認識結果がそれぞれより優れていた。
関連論文リスト
- UnDIVE: Generalized Underwater Video Enhancement Using Generative Priors [9.438388237767105]
水中ビデオの強化のための2段階フレームワークを提案する。
第1段階では、ラベルなしデータから生成前を学習するために、微分拡散記述モデルを用いている。
第2段階では、この前者は空間拡張のための物理ベースの画像定式化に組み込まれる。
提案手法は,低解像度の高解像度水中ビデオのリアルタイム・計算効率な処理を可能にする。
論文 参考訳(メタデータ) (2024-11-08T11:16:36Z) - An Animation-based Augmentation Approach for Action Recognition from Discontinuous Video [11.293897932762809]
コンピュータビジョンの重要な構成要素である行動認識は、複数のアプリケーションにおいて重要な役割を果たす。
CNNは、不連続なビデオフレームでトレーニングされた場合、パフォーマンスの低下に悩まされる。
この問題を克服するために、一連の高度な技術を用いた4Aパイプラインを紹介します。
論文 参考訳(メタデータ) (2024-04-10T04:59:51Z) - On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Unsupervised Domain Adaptation for Video Transformers in Action
Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文 参考訳(メタデータ) (2022-07-26T12:17:39Z) - Exploring Temporally Dynamic Data Augmentation for Video Recognition [21.233868129923458]
そこで我々はDynaAugmentという,シンプルで効果的なビデオデータ拡張フレームワークを提案する。
各フレーム上の拡張操作の大きさは、有効機構であるフーリエサンプリングによって変化する。
様々なビデオモデルに対する静的拡張から改善すべきパフォーマンスルームを実験的に示す。
論文 参考訳(メタデータ) (2022-06-30T04:34:34Z) - Space-Time Crop & Attend: Improving Cross-modal Video Representation
Learning [88.71867887257274]
トリミングのような空間拡張はビデオでもうまく機能するが、以前の実装ではうまく機能するのに十分な規模でこれを行うことができなかった。
そこで本研究ではまず,このような拡張をより効率的にシミュレートする手法であるFeature Cropについて紹介する。
第2に,ナイーブ平均プーリングとは対照的に,変圧器に基づく注意性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-03-18T12:32:24Z) - TCLR: Temporal Contrastive Learning for Video Representation [49.6637562402604]
2つの新しい損失からなる新しい時間的コントラスト学習フレームワークを開発し、既存のコントラスト自己監督ビデオ表現学習方法を改善する。
一般的な3D-ResNet-18アーキテクチャでは、UCF101で82.4%(+5.1%)、HMDB51で52.9%(+5.4%)の精度を達成した。
論文 参考訳(メタデータ) (2021-01-20T05:38:16Z) - Learning Temporally Invariant and Localizable Features via Data
Augmentation for Video Recognition [9.860323576151897]
画像認識において、空間的不変性を学ぶことは、認識性能と拡張性を改善する上で重要な要素である。
本研究では,ビデオの時間的不変性や時間的局所的特徴を学習するために,これらの戦略を時間的次元に拡張する。
新たな時間的データ拡張アルゴリズムに基づき,限られた訓練データのみを用いて映像認識性能を向上する。
論文 参考訳(メタデータ) (2020-08-13T06:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。