論文の概要: Learning Temporally Invariant and Localizable Features via Data
Augmentation for Video Recognition
- arxiv url: http://arxiv.org/abs/2008.05721v1
- Date: Thu, 13 Aug 2020 06:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 23:23:25.567116
- Title: Learning Temporally Invariant and Localizable Features via Data
Augmentation for Video Recognition
- Title(参考訳): ビデオ認識のためのデータ拡張による時間不変・局所的特徴の学習
- Authors: Taeoh Kim, Hyeongmin Lee, MyeongAh Cho, Ho Seong Lee, Dong Heon Cho,
Sangyoun Lee
- Abstract要約: 画像認識において、空間的不変性を学ぶことは、認識性能と拡張性を改善する上で重要な要素である。
本研究では,ビデオの時間的不変性や時間的局所的特徴を学習するために,これらの戦略を時間的次元に拡張する。
新たな時間的データ拡張アルゴリズムに基づき,限られた訓練データのみを用いて映像認識性能を向上する。
- 参考スコア(独自算出の注目度): 9.860323576151897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep-Learning-based video recognition has shown promising improvements along
with the development of large-scale datasets and spatiotemporal network
architectures. In image recognition, learning spatially invariant features is a
key factor in improving recognition performance and robustness. Data
augmentation based on visual inductive priors, such as cropping, flipping,
rotating, or photometric jittering, is a representative approach to achieve
these features. Recent state-of-the-art recognition solutions have relied on
modern data augmentation strategies that exploit a mixture of augmentation
operations. In this study, we extend these strategies to the temporal dimension
for videos to learn temporally invariant or temporally localizable features to
cover temporal perturbations or complex actions in videos. Based on our novel
temporal data augmentation algorithms, video recognition performances are
improved using only a limited amount of training data compared to the
spatial-only data augmentation algorithms, including the 1st Visual Inductive
Priors (VIPriors) for data-efficient action recognition challenge. Furthermore,
learned features are temporally localizable that cannot be achieved using
spatial augmentation algorithms. Our source code is available at
https://github.com/taeoh-kim/temporal_data_augmentation.
- Abstract(参考訳): ディープラーニングに基づくビデオ認識は、大規模データセットと時空間ネットワークアーキテクチャの開発とともに、有望な改善を示している。
画像認識において、空間的不変特徴の学習は、認識性能とロバスト性を改善する重要な要因である。
クロッピング、フリップ、回転、フォトメトリックジッタリングなどの視覚的インダクティブプリエントに基づくデータ拡張は、これらの機能を達成するための代表的なアプローチである。
最近の最先端の認識ソリューションは、拡張操作の混合を利用する現代的なデータ拡張戦略に依存している。
本研究では,ビデオの時間的不変あるいは時間的局所的特徴を学習し,時間的摂動や複雑な動作をカバーするための時間的次元にこれらの戦略を拡張する。
新たな時間的データ拡張アルゴリズムに基づき、空間のみのデータ拡張アルゴリズムと比較して、データ効率のよい行動認識のための第1視覚誘導優先アルゴリズム(VIPriors)を含む限られた訓練データを用いて、映像認識性能を向上する。
さらに、学習した特徴は時間的に局所化可能であり、空間拡張アルゴリズムでは達成できない。
ソースコードはhttps://github.com/taeoh-kim/temporal_data_augmentationで入手できます。
関連論文リスト
- Descriptor: Face Detection Dataset for Programmable Threshold-Based Sparse-Vision [0.8271394038014485]
このデータセットは、Aff-Wild2で使用されるのと同じビデオから派生した顔検出タスクのための注釈付き、時間閾値ベースの視覚データセットである。
我々は,このリソースが時間差閾値に基づいて処理できるスマートセンサに基づく堅牢な視覚システムの開発を支援することを期待する。
論文 参考訳(メタデータ) (2024-10-01T03:42:03Z) - Your Image is My Video: Reshaping the Receptive Field via Image-To-Video Differentiable AutoAugmentation and Fusion [35.88039888482076]
本稿では,ビデオとして処理可能な画像のバリエーションを生成するために,最初の微分可能拡張探索法(DAS)を提案する。
DASは非常に高速で柔軟性があり、GPUの1日以内で非常に大きな検索スペースを検索できる。
DASを利用して、タスク依存変換を選択することにより、空間受容場の再構成を誘導する。
論文 参考訳(メタデータ) (2024-03-22T13:27:57Z) - Augmenting Deep Learning Adaptation for Wearable Sensor Data through
Combined Temporal-Frequency Image Encoding [4.458210211781739]
本稿では、時間領域情報と周波数領域情報をシームレスに統合した、新しい修正繰り返しプロットベースの画像表現を提案する。
加速度センサを用いた活動認識データと事前訓練されたResNetモデルを用いて提案手法の評価を行い,既存の手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-03T09:29:27Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Extending Temporal Data Augmentation for Video Action Recognition [1.3807859854345832]
本研究では,空間領域と時間領域の関係を強化する新しい手法を提案する。
その結果,UCF-101データセットとHMDB-51データセットのTop-1およびTop-5設定では,ビデオアクション認識結果がそれぞれより優れていた。
論文 参考訳(メタデータ) (2022-11-09T13:49:38Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Controllable Data Augmentation Through Deep Relighting [75.96144853354362]
我々は、既存のモデルが照度変化に不変である能力を改善するために、リライトを通じて様々な画像データセットを拡大する方法を探る。
我々は,エンコーダ・デコーダネットワークをベースとして,様々な入力シーンの照明の様々なバリエーションを迅速に生成できるツールを開発した。
パイプラインで拡張されたデータセットのモデルをトレーニングすることで、ローカライゼーションベンチマークでより高いパフォーマンスを実現することが可能であることを実証した。
論文 参考訳(メタデータ) (2021-10-26T20:02:51Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Learning Representational Invariances for Data-Efficient Action
Recognition [52.23716087656834]
我々は,データ拡張戦略により,Kinetics-100,UCF-101,HMDB-51データセットのパフォーマンスが期待できることを示す。
また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。
論文 参考訳(メタデータ) (2021-03-30T17:59:49Z) - AdaFuse: Adaptive Temporal Fusion Network for Efficient Action
Recognition [68.70214388982545]
テンポラルモデリングは、効率的なビデオアクション認識の鍵である。
我々はAdaFuseと呼ばれる適応時間融合ネットワークを導入し、現在の特徴マップと過去の特徴マップからチャネルを融合する。
我々の手法は、最先端の手法に匹敵する精度で、約40%の計算節約を達成できる。
論文 参考訳(メタデータ) (2021-02-10T23:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。