論文の概要: Selective Volume Mixup for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2309.09534v2
- Date: Tue, 22 Oct 2024 09:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:25:09.753807
- Title: Selective Volume Mixup for Video Action Recognition
- Title(参考訳): ビデオ行動認識のための選択ボリューム・ミックスアップ
- Authors: Yi Tan, Zhaofan Qiu, Yanbin Hao, Ting Yao, Tao Mei,
- Abstract要約: 本稿では,限られたトレーニングビデオを用いた深層モデルの一般化能力を向上させるために,選択ボリューム混合(SV-Mix)と呼ばれる新しいビデオ拡張戦略を提案する。
SV-Mixは、2つのビデオから最も情報性の高いボリュームを選択するための学習可能な選択モジュールを考案し、新しいトレーニングビデオを達成するためにボリュームをミックスする。
SV-Mix拡張の利点を幅広いビデオアクション認識ベンチマークで実証的に実証した。
- 参考スコア(独自算出の注目度): 89.67716672312358
- License:
- Abstract: The recent advances in Convolutional Neural Networks (CNNs) and Vision Transformers have convincingly demonstrated high learning capability for video action recognition on large datasets. Nevertheless, deep models often suffer from the overfitting effect on small-scale datasets with a limited number of training videos. A common solution is to exploit the existing image augmentation strategies for each frame individually including Mixup, Cutmix, and RandAugment, which are not particularly optimized for video data. In this paper, we propose a novel video augmentation strategy named Selective Volume Mixup (SV-Mix) to improve the generalization ability of deep models with limited training videos. SV-Mix devises a learnable selective module to choose the most informative volumes from two videos and mixes the volumes up to achieve a new training video. Technically, we propose two new modules, i.e., a spatial selective module to select the local patches for each spatial position, and a temporal selective module to mix the entire frames for each timestamp and maintain the spatial pattern. At each time, we randomly choose one of the two modules to expand the diversity of training samples. The selective modules are jointly optimized with the video action recognition framework to find the optimal augmentation strategy. We empirically demonstrate the merits of the SV-Mix augmentation on a wide range of video action recognition benchmarks and consistently boot the performances of both CNN-based and transformer-based models.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(Vision Transformers)の最近の進歩は、大規模なデータセット上でのビデオアクション認識の高度な学習能力を確実に実証している。
それでも、ディープモデルは、限られた数のトレーニングビデオを持つ小規模データセットに過度に適合する効果に悩まされることが多い。
一般的な解決策は、ビデオデータに特に最適化されていないMixup、Cutmix、RandAugmentを含む、各フレームの既存の画像拡張戦略を活用することである。
本稿では,限られたトレーニングビデオを用いた深層モデルの一般化能力を向上させるために,Selective Volume Mixup (SV-Mix) という新しいビデオ拡張戦略を提案する。
SV-Mixは、2つのビデオから最も情報性の高いボリュームを選択するための学習可能な選択モジュールを考案し、新しいトレーニングビデオを達成するためにボリュームをミックスする。
技術的には,各空間位置の局所パッチを選択する空間選択モジュールと,タイムスタンプ毎にフレーム全体を混合して空間パターンを維持する時間選択モジュールという2つの新しいモジュールを提案する。
2つのモジュールのうちの1つをランダムに選択し、トレーニングサンプルの多様性を拡大します。
選択モジュールは、最適な拡張戦略を見つけるために、ビデオアクション認識フレームワークと共同で最適化される。
我々は,幅広いビデオアクション認識ベンチマークにおいてSV-Mixの利点を実証的に証明し,CNNベースのモデルとトランスフォーマーベースのモデルの両方のパフォーマンスを一貫して起動する。
関連論文リスト
- Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Learning Implicit Temporal Alignment for Few-shot Video Classification [40.57508426481838]
少数のビデオ分類は、いくつかのラベル付き例で新しいビデオカテゴリを学ぶことを目的としています。
このような設定でクラス不変な空間-時間表現を学ぶことは特に難しい。
本研究は,映像系列に対する新しいマッチングベースの少数ショット学習戦略を提案する。
論文 参考訳(メタデータ) (2021-05-11T07:18:57Z) - Dynamic Sampling Networks for Efficient Action Recognition in Videos [43.51012099839094]
Em Dynamic Smpling Networks (DSN) と呼ばれるビデオにおける行動認識のための新しいフレームワークを提案する。
DSNは、サンプリングモジュールと分類モジュールから構成されており、その目的は、どのクリップをオンザフライで選択し、どのクリップを保持して、これらの選択されたクリップに基づいてアクション認識を行うかを訓練するサンプリングポリシーを学習することである。
UCF101, HMDB51, THUMOS14, ActivityNet v1.3の4つのアクション認識データセット上で, DSNフレームワークのさまざまな側面について検討した。
論文 参考訳(メタデータ) (2020-06-28T09:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。