論文の概要: Large-scale Robustness Analysis of Video Action Recognition Models
- arxiv url: http://arxiv.org/abs/2207.01398v1
- Date: Mon, 4 Jul 2022 13:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 16:26:09.788090
- Title: Large-scale Robustness Analysis of Video Action Recognition Models
- Title(参考訳): ビデオ行動認識モデルの大規模ロバスト性解析
- Authors: Madeline C. Schiappa, Naman Biyani, Shruti Vyas, Hamid Palangi, Vibhav
Vineet, Yogesh Rawat
- Abstract要約: 本稿では,90種類の摂動に対する6種類の動作認識モデルの堅牢性について検討する。
1)変換器ベースモデルはCNNベースモデルと比較して、ほとんどの摂動に対して一貫して頑健である。
- 参考スコア(独自算出の注目度): 10.614481276648531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We have seen a great progress in video action recognition in recent years.
There are several models based on convolutional neural network (CNN) with some
recent transformer based approaches which provide state-of-the-art performance
on existing benchmark datasets. However, large-scale robustness has not been
studied for these models which is a critical aspect for real-world
applications. In this work we perform a large-scale robustness analysis of
these existing models for video action recognition. We mainly focus on
robustness against distribution shifts due to real-world perturbations instead
of adversarial perturbations. We propose four different benchmark datasets,
HMDB-51P, UCF-101P, Kinetics-400P, and SSv2P and study the robustness of six
different state-of-the-art action recognition models against 90 different
perturbations. The study reveals some interesting findings, 1) transformer
based models are consistently more robust against most of the perturbations
when compared with CNN based models, 2) Pretraining helps Transformer based
models to be more robust to different perturbations than CNN based models, and
3) All of the studied models are robust to temporal perturbation on the
Kinetics dataset, but not on SSv2; this suggests temporal information is much
more important for action label prediction on SSv2 datasets than on the
Kinetics dataset. We hope that this study will serve as a benchmark for future
research in robust video action recognition. More details about the project are
available at https://rose-ar.github.io/.
- Abstract(参考訳): 近年,映像動作認識の進歩がみられた。
convolutional neural network (cnn) に基づいたモデルがいくつかあり、既存のベンチマークデータセットで最先端のパフォーマンスを提供するトランスフォーマティブベースのアプローチもいくつかある。
しかし、これらのモデルに対して大規模なロバスト性は研究されていない。
本研究では,映像動作認識のための既存モデルの大規模ロバストネス解析を行う。
我々は主に,逆摂動ではなく実世界の摂動による分布変化に対するロバスト性に注目している。
我々は,HMDB-51P,UCF-101P,Kinetics-400P,SSv2Pの4つの異なるベンチマークデータセットを提案し,90の異なる摂動に対する6種類の動作認識モデルの堅牢性を検討した。
この研究は興味深い発見をいくつか明らかにしている。
1)変換器ベースモデルはCNNベースモデルと比較した場合,ほとんどの摂動に対して一貫して堅牢である。
2)プリトレーニングは、トランスフォーマーベースのモデルがcnnベースのモデルと異なる摂動に対してより堅牢になるのに役立つ。
3)すべてのモデルでは,ssv2よりもssv2データセット上での時間的摂動にロバストであるが,ssv2では時間的情報よりも,ssv2データセット上での行動ラベル予測に時間的情報がより重要であることが示唆された。
この研究が、堅牢なビデオアクション認識における将来の研究のベンチマークとなることを期待している。
プロジェクトの詳細はhttps://rose-ar.github.io/で確認できる。
関連論文リスト
- Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - Robustness Analysis on Foundational Segmentation Models [28.01242494123917]
本研究では,セグメンテーションタスクのためのVisual Foundation Models (VFM) のロバストネス解析を行う。
2つの異なるデータセットを使用して、7つの最先端セグメンテーションアーキテクチャをベンチマークする。
VFMは、強靭性において不定形モデルをすべて上回るものではないにもかかわらず、圧縮誘起汚損に対する脆弱性を示し、マルチモーダルモデルはゼロショットシナリオにおける競争力を示し、VFMは特定の対象カテゴリに対して強靭性を示す。
論文 参考訳(メタデータ) (2023-06-15T16:59:42Z) - Reliability in Semantic Segmentation: Are We on the Right Track? [15.0189654919665]
我々は、古いResNetベースのアーキテクチャから新しいトランスフォーマーまで、さまざまなモデルを分析します。
近年のモデルでは, 信頼性は著しく高いが, 不確実性評価の点では, 全体として信頼性は高くない。
これは、ロバストネスと不確実性推定の両方に焦点を当てた現代のセグメンテーションモデルに関する最初の研究である。
論文 参考訳(メタデータ) (2023-03-20T17:38:24Z) - Out of Distribution Performance of State of Art Vision Model [0.0]
ViTの自己保持機構は、CNNよりも堅牢である。
58の最先端コンピュータビジョンモデルの性能を統一的なトレーニング設定で検証する。
論文 参考訳(メタデータ) (2023-01-25T18:14:49Z) - An Empirical Study of Deep Learning Models for Vulnerability Detection [4.243592852049963]
我々は、広く使われている2つの脆弱性検出データセット上で、最先端の9つのディープラーニングモデルを調査し、再現した。
モデル能力,トレーニングデータ,モデル解釈について検討した。
我々の研究結果は、モデル結果の理解を深め、トレーニングデータ作成のガイダンスを提供し、モデルの堅牢性を向上させるのに役立つ。
論文 参考訳(メタデータ) (2022-12-15T19:49:34Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。