論文の概要: Selective Volume Mixup for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2309.09534v1
- Date: Mon, 18 Sep 2023 07:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 14:42:12.374050
- Title: Selective Volume Mixup for Video Action Recognition
- Title(参考訳): ビデオ行動認識のための選択ボリュームミックスアップ
- Authors: Yi Tan, Zhaofan Qiu, Yanbin Hao, Ting Yao, Xiangnan He and Tao Mei
- Abstract要約: 本稿では,限られたトレーニングビデオを用いた深層モデルの一般化能力を向上させるために,選択ボリューム混合(SV-Mix)と呼ばれる新しいビデオ拡張戦略を提案する。
SV-Mixは、2つのビデオから最も情報性の高いボリュームを選択するための学習可能な選択モジュールを考案し、新しいトレーニングビデオを達成するためにボリュームをミックスする。
SV-Mix拡張の利点を幅広いビデオアクション認識ベンチマークで実証的に実証した。
- 参考スコア(独自算出の注目度): 107.13350555049047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advances in Convolutional Neural Networks (CNNs) and Vision
Transformers have convincingly demonstrated high learning capability for video
action recognition on large datasets. Nevertheless, deep models often suffer
from the overfitting effect on small-scale datasets with a limited number of
training videos. A common solution is to exploit the existing image
augmentation strategies for each frame individually including Mixup, Cutmix,
and RandAugment, which are not particularly optimized for video data. In this
paper, we propose a novel video augmentation strategy named Selective Volume
Mixup (SV-Mix) to improve the generalization ability of deep models with
limited training videos. SV-Mix devises a learnable selective module to choose
the most informative volumes from two videos and mixes the volumes up to
achieve a new training video. Technically, we propose two new modules, i.e., a
spatial selective module to select the local patches for each spatial position,
and a temporal selective module to mix the entire frames for each timestamp and
maintain the spatial pattern. At each time, we randomly choose one of the two
modules to expand the diversity of training samples. The selective modules are
jointly optimized with the video action recognition framework to find the
optimal augmentation strategy. We empirically demonstrate the merits of the
SV-Mix augmentation on a wide range of video action recognition benchmarks and
consistently boot the performances of both CNN-based and transformer-based
models.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(Vision Transformers)の最近の進歩は、大規模なデータセット上でのビデオアクション認識の高度な学習能力を確実に実証している。
それにもかかわらず、深層モデルは、限られた数のトレーニングビデオを持つ小規模データセットに過剰な影響を被ることが多い。
一般的な解決策は、ビデオデータに特に最適化されていないMixup、Cutmix、RandAugmentを含む、各フレームの既存の画像拡張戦略を活用することである。
本稿では,訓練ビデオの少ない深層モデルの一般化能力を向上させるために,sv-mix(selective volume mixup)という新しい拡張戦略を提案する。
SV-Mixは、2つのビデオから最も情報性の高いボリュームを選択するための学習可能な選択モジュールを考案し、新しいトレーニングビデオを達成するためにボリュームをミックスする。
技術的には,各空間位置の局所パッチを選択する空間選択モジュールと,タイムスタンプ毎にフレーム全体を混合して空間パターンを維持する時間選択モジュールという2つの新しいモジュールを提案する。
2つのモジュールのうちの1つをランダムに選択し、トレーニングサンプルの多様性を拡大します。
選択モジュールは、ビデオアクション認識フレームワークと共同で最適化され、最適な拡張戦略を見つける。
我々は、幅広いビデオアクション認識ベンチマークにおけるsv-mix拡張の利点を実証し、cnnベースとtransformerベースのモデルの両方のパフォーマンスを一貫してブートする。
関連論文リスト
- Mug-STAN: Adapting Image-Language Pretrained Models for General Video
Understanding [47.97650346560239]
マルチガイドアライメントモジュール(Mug-STAN)を用いた空間時間補助ネットワークを提案する。
Mug-STANは、CLIPやCoCaといった言語画像事前学習モデルの、ビデオテキスト後トレーニングと微調整の段階における適応性を著しく改善する。
論文 参考訳(メタデータ) (2023-11-25T17:01:38Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z) - Learning Implicit Temporal Alignment for Few-shot Video Classification [40.57508426481838]
少数のビデオ分類は、いくつかのラベル付き例で新しいビデオカテゴリを学ぶことを目的としています。
このような設定でクラス不変な空間-時間表現を学ぶことは特に難しい。
本研究は,映像系列に対する新しいマッチングベースの少数ショット学習戦略を提案する。
論文 参考訳(メタデータ) (2021-05-11T07:18:57Z) - Dynamic Sampling Networks for Efficient Action Recognition in Videos [43.51012099839094]
Em Dynamic Smpling Networks (DSN) と呼ばれるビデオにおける行動認識のための新しいフレームワークを提案する。
DSNは、サンプリングモジュールと分類モジュールから構成されており、その目的は、どのクリップをオンザフライで選択し、どのクリップを保持して、これらの選択されたクリップに基づいてアクション認識を行うかを訓練するサンプリングポリシーを学習することである。
UCF101, HMDB51, THUMOS14, ActivityNet v1.3の4つのアクション認識データセット上で, DSNフレームワークのさまざまな側面について検討した。
論文 参考訳(メタデータ) (2020-06-28T09:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。