論文の概要: Learn2Augment: Learning to Composite Videos for Data Augmentation in
Action Recognition
- arxiv url: http://arxiv.org/abs/2206.04790v1
- Date: Thu, 9 Jun 2022 23:04:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 03:26:46.740016
- Title: Learn2Augment: Learning to Composite Videos for Data Augmentation in
Action Recognition
- Title(参考訳): Learn2Augment: 行動認識におけるデータ拡張のための複合ビデオ学習
- Authors: Shreyank N Gowda, Marcus Rohrbach, Frank Keller, Laura Sevilla-Lara
- Abstract要約: 我々は、アクション認識のための優れたビデオを作るものを学び、拡張のための高品質なサンプルのみを選択する。
実際に合成することなく、ビデオのどのペアを拡大するかを学ぶ。
半教師付き環境では最大8.6%の改善が見られる。
- 参考スコア(独自算出の注目度): 47.470845728457135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of data augmentation for video action recognition.
Standard augmentation strategies in video are hand-designed and sample the
space of possible augmented data points either at random, without knowing which
augmented points will be better, or through heuristics. We propose to learn
what makes a good video for action recognition and select only high-quality
samples for augmentation. In particular, we choose video compositing of a
foreground and a background video as the data augmentation process, which
results in diverse and realistic new samples. We learn which pairs of videos to
augment without having to actually composite them. This reduces the space of
possible augmentations, which has two advantages: it saves computational cost
and increases the accuracy of the final trained classifier, as the augmented
pairs are of higher quality than average. We present experimental results on
the entire spectrum of training settings: few-shot, semi-supervised and fully
supervised. We observe consistent improvements across all of them over prior
work and baselines on Kinetics, UCF101, HMDB51, and achieve a new
state-of-the-art on settings with limited data. We see improvements of up to
8.6% in the semi-supervised setting.
- Abstract(参考訳): ビデオ行動認識におけるデータ拡張の問題に対処する。
ビデオの標準的な拡張戦略は手作業で設計され、可能な拡張データポイントの空間をランダムに、どの拡張ポイントが良いかを知らずに、あるいはヒューリスティックスを通してサンプリングする。
そこで我々は,アクション認識のための優れたビデオの作り方と,向上のための高品質なサンプルのみを選択することを提案する。
特に,前景と背景映像のビデオ合成をデータ拡張プロセスとして選択することで,多様で現実的な新しいサンプルが得られた。
実際に合成することなく、ビデオのどのペアを拡大するかを学ぶ。
これは計算コストを削減し、拡張ペアが平均よりも高品質であるため、最終的な訓練された分類器の精度を向上させるという2つの利点がある。
訓練環境の全体について実験結果を示す: 少数, 半監督, 完全監督。
これまでの作業とKinetics, UCF101, HMDB51のベースラインに対して,これらすべてに対して一貫した改善を行い, 限られたデータによる新たな最先端設定を実現する。
半教師付き設定では最大8.6%改善しています。
関連論文リスト
- ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning [29.620990627792906]
本稿では,新たな自己教師付きビデオ表現学習フレームワークであるARVideoを提案する。
大規模な実験は、自己教師付きビデオ表現学習の効果的なパラダイムとしてARVideoを確立する。
論文 参考訳(メタデータ) (2024-05-24T02:29:03Z) - Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - A Feature-space Multimodal Data Augmentation Technique for Text-video
Retrieval [16.548016892117083]
近年,テキストビデオ検索手法が注目されている。
データ拡張技術は、目に見えないテスト例のパフォーマンスを向上させるために導入された。
特徴空間で機能し,意味的に類似したサンプルを混合して新しいビデオやキャプションを生成するマルチモーダルデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T14:05:20Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Space-Time Crop & Attend: Improving Cross-modal Video Representation
Learning [88.71867887257274]
トリミングのような空間拡張はビデオでもうまく機能するが、以前の実装ではうまく機能するのに十分な規模でこれを行うことができなかった。
そこで本研究ではまず,このような拡張をより効率的にシミュレートする手法であるFeature Cropについて紹介する。
第2に,ナイーブ平均プーリングとは対照的に,変圧器に基づく注意性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-03-18T12:32:24Z) - VideoMix: Rethinking Data Augmentation for Video Classification [29.923635550986997]
最新のビデオアクション分類器は、しばしばオーバーフィットに苦しむ。
オーバーフィッティング問題に対処するための最近のデータ拡張戦略が報告されている。
VideoMixは、モデルがオブジェクトやシーンのバイアスを越えて学習し、アクション認識のためのより堅牢な手がかりを抽出する。
論文 参考訳(メタデータ) (2020-12-07T05:40:33Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z) - Feature Re-Learning with Data Augmentation for Video Relevance
Prediction [35.87597969685573]
再学習は、アフィン変換によって与えられた深い機能を新しい空間に投影することで実現される。
本稿では,フレームレベルとビデオレベルの機能に直接依存する新たなデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2020-04-08T05:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。