論文の概要: Large-scale Robustness Analysis of Video Action Recognition Models
- arxiv url: http://arxiv.org/abs/2207.01398v2
- Date: Fri, 7 Apr 2023 16:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 15:20:21.594451
- Title: Large-scale Robustness Analysis of Video Action Recognition Models
- Title(参考訳): ビデオ行動認識モデルの大規模ロバスト性解析
- Authors: Madeline Chantry Schiappa, Naman Biyani, Prudvi Kamtam, Shruti Vyas,
Hamid Palangi, Vibhav Vineet, Yogesh Rawat
- Abstract要約: 我々は6つの最先端動作認識モデルの90種類の摂動に対する堅牢性について検討した。
1) トランスフォーマーベースモデルはCNNベースモデルと比較して一貫して堅牢であり、2) 事前トレーニングはCNNベースモデルよりもトランスフォーマーベースモデルのロバスト性を改善し、3) 研究されたモデルはすべて、SSv2以外のすべてのデータセットに対して時間的摂動に対して堅牢である。
- 参考スコア(独自算出の注目度): 10.017292176162302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We have seen a great progress in video action recognition in recent years.
There are several models based on convolutional neural network (CNN) and some
recent transformer based approaches which provide top performance on existing
benchmarks. In this work, we perform a large-scale robustness analysis of these
existing models for video action recognition. We focus on robustness against
real-world distribution shift perturbations instead of adversarial
perturbations. We propose four different benchmark datasets, HMDB51-P,
UCF101-P, Kinetics400-P, and SSv2-P to perform this analysis. We study
robustness of six state-of-the-art action recognition models against 90
different perturbations. The study reveals some interesting findings, 1)
transformer based models are consistently more robust compared to CNN based
models, 2) Pretraining improves robustness for Transformer based models more
than CNN based models, and 3) All of the studied models are robust to temporal
perturbations for all datasets but SSv2; suggesting the importance of temporal
information for action recognition varies based on the dataset and activities.
Next, we study the role of augmentations in model robustness and present a
real-world dataset, UCF101-DS, which contains realistic distribution shifts, to
further validate some of these findings. We believe this study will serve as a
benchmark for future research in robust video action recognition.
- Abstract(参考訳): 近年,映像動作認識の進歩がみられた。
畳み込みニューラルネットワーク(CNN)に基づくモデルと、既存のベンチマークで最高のパフォーマンスを提供するトランスフォーマーベースのアプローチがいくつかある。
本研究では,映像動作認識のための既存モデルの大規模ロバストネス解析を行う。
敵の摂動ではなく、現実の分散シフト摂動に対する堅牢性に焦点を当てる。
本解析を行うために, hmdb51-p, ucf101-p, kinetics400-p, ssv2-pの4種類のベンチマークデータセットを提案する。
我々は6つの最先端動作認識モデルの90種類の摂動に対する堅牢性について検討した。
この研究は興味深い発見をいくつか明らかにしている。
1)トランスフォーマーベースモデルはcnnベースモデルよりも一貫して堅牢である。
2) 事前学習はCNNベースモデルよりもトランスフォーマーベースモデルの堅牢性を向上し,
3)すべてのモデルがSSv2以外のデータセットに対して時間的摂動に対して頑健であり,行動認識における時間的情報の重要性はデータセットや活動によって異なる。
次に、モデルロバスト性における強化の役割について検討し、現実的な分布シフトを含む実世界のデータセット UCF101-DS を提示し、これらの結果のさらなる検証を行う。
我々はこの研究が、堅牢なビデオ行動認識における将来の研究のベンチマークとなると信じている。
関連論文リスト
- Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - Robustness Analysis on Foundational Segmentation Models [28.01242494123917]
本研究では,セグメンテーションタスクのためのVisual Foundation Models (VFM) のロバストネス解析を行う。
2つの異なるデータセットを使用して、7つの最先端セグメンテーションアーキテクチャをベンチマークする。
VFMは、強靭性において不定形モデルをすべて上回るものではないにもかかわらず、圧縮誘起汚損に対する脆弱性を示し、マルチモーダルモデルはゼロショットシナリオにおける競争力を示し、VFMは特定の対象カテゴリに対して強靭性を示す。
論文 参考訳(メタデータ) (2023-06-15T16:59:42Z) - Reliability in Semantic Segmentation: Are We on the Right Track? [15.0189654919665]
我々は、古いResNetベースのアーキテクチャから新しいトランスフォーマーまで、さまざまなモデルを分析します。
近年のモデルでは, 信頼性は著しく高いが, 不確実性評価の点では, 全体として信頼性は高くない。
これは、ロバストネスと不確実性推定の両方に焦点を当てた現代のセグメンテーションモデルに関する最初の研究である。
論文 参考訳(メタデータ) (2023-03-20T17:38:24Z) - Out of Distribution Performance of State of Art Vision Model [0.0]
ViTの自己保持機構は、CNNよりも堅牢である。
58の最先端コンピュータビジョンモデルの性能を統一的なトレーニング設定で検証する。
論文 参考訳(メタデータ) (2023-01-25T18:14:49Z) - An Empirical Study of Deep Learning Models for Vulnerability Detection [4.243592852049963]
我々は、広く使われている2つの脆弱性検出データセット上で、最先端の9つのディープラーニングモデルを調査し、再現した。
モデル能力,トレーニングデータ,モデル解釈について検討した。
我々の研究結果は、モデル結果の理解を深め、トレーニングデータ作成のガイダンスを提供し、モデルの堅牢性を向上させるのに役立つ。
論文 参考訳(メタデータ) (2022-12-15T19:49:34Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。