論文の概要: VideoMix: Rethinking Data Augmentation for Video Classification
- arxiv url: http://arxiv.org/abs/2012.03457v1
- Date: Mon, 7 Dec 2020 05:40:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:24:45.411242
- Title: VideoMix: Rethinking Data Augmentation for Video Classification
- Title(参考訳): videomix: ビデオ分類のためのデータ拡張再考
- Authors: Sangdoo Yun, Seong Joon Oh, Byeongho Heo, Dongyoon Han, Jinhyung Kim
- Abstract要約: 最新のビデオアクション分類器は、しばしばオーバーフィットに苦しむ。
オーバーフィッティング問題に対処するための最近のデータ拡張戦略が報告されている。
VideoMixは、モデルがオブジェクトやシーンのバイアスを越えて学習し、アクション認識のためのより堅牢な手がかりを抽出する。
- 参考スコア(独自算出の注目度): 29.923635550986997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art video action classifiers often suffer from overfitting. They
tend to be biased towards specific objects and scene cues, rather than the
foreground action content, leading to sub-optimal generalization performances.
Recent data augmentation strategies have been reported to address the
overfitting problems in static image classifiers. Despite the effectiveness on
the static image classifiers, data augmentation has rarely been studied for
videos. For the first time in the field, we systematically analyze the efficacy
of various data augmentation strategies on the video classification task. We
then propose a powerful augmentation strategy VideoMix. VideoMix creates a new
training video by inserting a video cuboid into another video. The ground truth
labels are mixed proportionally to the number of voxels from each video. We
show that VideoMix lets a model learn beyond the object and scene biases and
extract more robust cues for action recognition. VideoMix consistently
outperforms other augmentation baselines on Kinetics and the challenging
Something-Something-V2 benchmarks. It also improves the weakly-supervised
action localization performance on THUMOS'14. VideoMix pretrained models
exhibit improved accuracies on the video detection task (AVA).
- Abstract(参考訳): 最先端のビデオアクション分類器は、しばしば過剰フィッティングに苦しむ。
それらは前景のアクション内容よりも、特定のオブジェクトやシーンキューに偏りがちで、準最適一般化性能をもたらす。
近年,静的画像分類器の過適合問題に対処するためのデータ拡張戦略が報告されている。
静的画像分類器の有効性にもかかわらず、ビデオでデータ拡張が研究されることは滅多にない。
そこで本研究では,映像分類タスクにおける各種データ拡張戦略の有効性を体系的に解析した。
次に,強力な拡張戦略であるVideoMixを提案する。
VideoMixは、ビデオキューブを別のビデオに挿入することで、新しいトレーニングビデオを作成する。
基底真理ラベルは、各ビデオのボクセル数に比例して混合される。
VideoMixは、モデルがオブジェクトやシーンバイアスを超えて学習し、アクション認識のためのより堅牢な手がかりを抽出できることを示す。
VideoMixは、 Kineticsと挑戦的なSomething-V2ベンチマークの他の拡張ベースラインを一貫して上回っている。
また、THUMOS'14の弱い教師付きアクションローカライゼーション性能も改善した。
VideoMix事前訓練されたモデルは、ビデオ検出タスク(AVA)に改善された精度を示す。
関連論文リスト
- InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Overlooked Video Classification in Weakly Supervised Video Anomaly
Detection [4.162019309587633]
本稿では,BERT や LSTM を用いた映像分類管理の能力について検討する。
このBERTまたはLSTMにより、ビデオの全スニペットのCNN機能は、ビデオ分類に使用できる単一の機能に集約できる。
このシンプルだが強力なビデオ分類監督は、MILフレームワークに組み合わされ、3つの主要なビデオ異常検出データセットすべてに対して、驚くほどのパフォーマンス改善をもたらす。
論文 参考訳(メタデータ) (2022-10-13T03:00:22Z) - Exploring Temporally Dynamic Data Augmentation for Video Recognition [21.233868129923458]
そこで我々はDynaAugmentという,シンプルで効果的なビデオデータ拡張フレームワークを提案する。
各フレーム上の拡張操作の大きさは、有効機構であるフーリエサンプリングによって変化する。
様々なビデオモデルに対する静的拡張から改善すべきパフォーマンスルームを実験的に示す。
論文 参考訳(メタデータ) (2022-06-30T04:34:34Z) - Learn2Augment: Learning to Composite Videos for Data Augmentation in
Action Recognition [47.470845728457135]
我々は、アクション認識のための優れたビデオを作るものを学び、拡張のための高品質なサンプルのみを選択する。
実際に合成することなく、ビデオのどのペアを拡大するかを学ぶ。
半教師付き環境では最大8.6%の改善が見られる。
論文 参考訳(メタデータ) (2022-06-09T23:04:52Z) - Cross-modal Manifold Cutmix for Self-supervised Video Representation
Learning [50.544635516455116]
本稿では,自己教師型学習のためのビデオ強化の設計に焦点をあてる。
まず、ビデオを混ぜて新しいビデオサンプルを作るための最良の戦略を分析します。
ビデオテッセラクトを他のビデオテッセラクトに挿入するCross-Modal Manifold Cutmix (CMMC)を提案する。
論文 参考訳(メタデータ) (2021-12-07T18:58:33Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。