論文の概要: Exploring Temporally Dynamic Data Augmentation for Video Recognition
- arxiv url: http://arxiv.org/abs/2206.15015v1
- Date: Thu, 30 Jun 2022 04:34:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-02 04:28:39.231477
- Title: Exploring Temporally Dynamic Data Augmentation for Video Recognition
- Title(参考訳): 映像認識のための時間動的データ拡張の探索
- Authors: Taeoh Kim, Jinhyung Kim, Minho Shim, Sangdoo Yun, Myunggu Kang,
Dongyoon Wee, Sangyoun Lee
- Abstract要約: そこで我々はDynaAugmentという,シンプルで効果的なビデオデータ拡張フレームワークを提案する。
各フレーム上の拡張操作の大きさは、有効機構であるフーリエサンプリングによって変化する。
様々なビデオモデルに対する静的拡張から改善すべきパフォーマンスルームを実験的に示す。
- 参考スコア(独自算出の注目度): 21.233868129923458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation has recently emerged as an essential component of modern
training recipes for visual recognition tasks. However, data augmentation for
video recognition has been rarely explored despite its effectiveness. Few
existing augmentation recipes for video recognition naively extend the image
augmentation methods by applying the same operations to the whole video frames.
Our main idea is that the magnitude of augmentation operations for each frame
needs to be changed over time to capture the real-world video's temporal
variations. These variations should be generated as diverse as possible using
fewer additional hyper-parameters during training. Through this motivation, we
propose a simple yet effective video data augmentation framework, DynaAugment.
The magnitude of augmentation operations on each frame is changed by an
effective mechanism, Fourier Sampling that parameterizes diverse, smooth, and
realistic temporal variations. DynaAugment also includes an extended search
space suitable for video for automatic data augmentation methods. DynaAugment
experimentally demonstrates that there are additional performance rooms to be
improved from static augmentations on diverse video models. Specifically, we
show the effectiveness of DynaAugment on various video datasets and tasks:
large-scale video recognition (Kinetics-400 and Something-Something-v2),
small-scale video recognition (UCF- 101 and HMDB-51), fine-grained video
recognition (Diving-48 and FineGym), video action segmentation on Breakfast,
video action localization on THUMOS'14, and video object detection on MOT17Det.
DynaAugment also enables video models to learn more generalized representation
to improve the model robustness on the corrupted videos.
- Abstract(参考訳): データ拡張は、視覚認識タスクのためのモダンなトレーニングレシピの重要なコンポーネントとして最近登場した。
しかし、映像認識のためのデータ拡張は、その効果にもかかわらず、ほとんど研究されていない。
ビデオフレーム全体に同じ操作を適用することで、画像拡張方法を鼻で拡張する既存のビデオ認識用拡張レシピはほとんどない。
我々の考えでは、実世界のビデオの時間変動を捉えるために、各フレームの増大操作の大きさを時間とともに変更する必要がある。
これらのバリエーションは、トレーニング中に追加のハイパーパラメータを減らして、可能な限り多様なものを生成する必要がある。
この動機により,簡易かつ効果的な映像データ拡張フレームワークdynaaugmentを提案する。
各フレームの加算操作の大きさは、多様で滑らかで現実的な時間変化をパラメータ化するフーリエサンプリングという効果的なメカニズムによって変化する。
DynaAugmentには、自動データ拡張のためのビデオに適した拡張検索スペースも含まれている。
DynaAugmentは、様々なビデオモデルの静的拡張から改善すべきパフォーマンスルームを実験的に示す。
具体的には、大規模なビデオ認識(Kinetics-400とSomething-v2)、小規模なビデオ認識(UCF-101とHMDB-51)、きめ細かいビデオ認識(Diving-48とFinGym)、Breakfast上のビデオアクションセグメンテーション、THUMOS'14におけるビデオアクションローカライゼーション、MOT17Detにおけるビデオオブジェクト検出など、DynaAugmentの有効性を示す。
DynaAugmentはまた、ビデオモデルがより一般化された表現を学習し、腐敗したビデオにおけるモデルの堅牢性を改善することを可能にする。
関連論文リスト
- Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - Tubelet-Contrastive Self-Supervision for Video-Efficient Generalization [23.245275661852446]
動きに着目した映像表現を学習するための自己教師付き手法を提案する。
我々は、同じローカルモーションダイナミクスを持つビデオ間の類似性を学ぶが、それ以外は異なる外観を持つ。
トレーニング済みビデオの25%しか使用していない場合,本手法では性能が維持される。
論文 参考訳(メタデータ) (2023-03-20T10:31:35Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Learn2Augment: Learning to Composite Videos for Data Augmentation in
Action Recognition [47.470845728457135]
我々は、アクション認識のための優れたビデオを作るものを学び、拡張のための高品質なサンプルのみを選択する。
実際に合成することなく、ビデオのどのペアを拡大するかを学ぶ。
半教師付き環境では最大8.6%の改善が見られる。
論文 参考訳(メタデータ) (2022-06-09T23:04:52Z) - Learning Representational Invariances for Data-Efficient Action
Recognition [52.23716087656834]
我々は,データ拡張戦略により,Kinetics-100,UCF-101,HMDB-51データセットのパフォーマンスが期待できることを示す。
また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。
論文 参考訳(メタデータ) (2021-03-30T17:59:49Z) - VideoMix: Rethinking Data Augmentation for Video Classification [29.923635550986997]
最新のビデオアクション分類器は、しばしばオーバーフィットに苦しむ。
オーバーフィッティング問題に対処するための最近のデータ拡張戦略が報告されている。
VideoMixは、モデルがオブジェクトやシーンのバイアスを越えて学習し、アクション認識のためのより堅牢な手がかりを抽出する。
論文 参考訳(メタデータ) (2020-12-07T05:40:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。