論文の概要: Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts
- arxiv url: http://arxiv.org/abs/2401.11406v1
- Date: Sun, 21 Jan 2024 05:50:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:30:34.714065
- Title: Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts
- Title(参考訳): adversarial augmentation trainingは、アクション認識モデルをよりリアルなビデオ配信シフトに堅牢にする
- Authors: Kiyoon Kim, Shreyank N Gowda, Panagiotis Eustratiadis, Antreas
Antoniou, Robert B Fisher
- Abstract要約: アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 13.752169303624147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in video action recognition achieving strong
performance on existing benchmarks, these models often lack robustness when
faced with natural distribution shifts between training and test data. We
propose two novel evaluation methods to assess model resilience to such
distribution disparity. One method uses two different datasets collected from
different sources and uses one for training and validation, and the other for
testing. More precisely, we created dataset splits of HMDB-51 or UCF-101 for
training, and Kinetics-400 for testing, using the subset of the classes that
are overlapping in both train and test datasets. The other proposed method
extracts the feature mean of each class from the target evaluation dataset's
training data (i.e. class prototype) and estimates test video prediction as a
cosine similarity score between each sample to the class prototypes of each
target class. This procedure does not alter model weights using the target
dataset and it does not require aligning overlapping classes of two different
datasets, thus is a very efficient method to test the model robustness to
distribution shifts without prior knowledge of the target distribution. We
address the robustness problem by adversarial augmentation training -
generating augmented views of videos that are "hard" for the classification
model by applying gradient ascent on the augmentation parameters - as well as
"curriculum" scheduling the strength of the video augmentations. We
experimentally demonstrate the superior performance of the proposed adversarial
augmentation approach over baselines across three state-of-the-art action
recognition models - TSM, Video Swin Transformer, and Uniformer. The presented
work provides critical insight into model robustness to distribution shifts and
presents effective techniques to enhance video action recognition performance
in a real-world deployment.
- Abstract(参考訳): 既存のベンチマークで強力なパフォーマンスを達成するビデオアクション認識の最近の進歩にもかかわらず、これらのモデルはトレーニングとテストデータの間の自然な分散シフトに直面した場合、しばしば堅牢性に欠ける。
そこで本研究では,分布のばらつきに対するモデルのレジリエンスを評価するための2つの新しい評価手法を提案する。
あるメソッドは、異なるソースから収集された2つの異なるデータセットを使用し、トレーニングと検証に1つ、テストに1つを使用する。
より正確には、トレーニング用のHMDB-51またはUCF-101のデータセット分割と、テスト用のKinetics-400を作成しました。
もう1つの提案手法は、対象評価データセットのトレーニングデータ(すなわちクラスプロトタイプ)から各クラスの特徴平均を抽出し、各サンプルから各対象クラスのクラスプロトタイプへのコサイン類似度スコアとしてテストビデオ予測を推定する。
この方法では、ターゲットデータセットを使用したモデル重み付けを変更せず、2つの異なるデータセットの重なり合うクラスを調整する必要はなく、ターゲット分布の事前の知識なしに分布シフトに対するモデルロバスト性をテストする非常に効率的な方法である。
本研究は,ビデオ拡張の強度を推定する「カリキュラム」だけでなく,拡張パラメータの勾配上昇を適用して,分類モデルに「ハード」な映像の強化ビューを生成する対向的拡張学習によるロバストネス問題に対処する。
提案手法は,TSM, Video Swin Transformer, Uniformerの3種類の動作認識モデルに対して,ベースラインよりも高い性能を示す。
本研究は,分散シフトに対するモデルロバスト性に関する重要な知見を提供し,実世界展開における映像行動認識性能を向上させる効果的な技術を提供する。
関連論文リスト
- Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Universal Semi-supervised Model Adaptation via Collaborative Consistency
Training [92.52892510093037]
我々は、Universal Semi-supervised Model Adaptation (USMA)と呼ばれる現実的で挑戦的なドメイン適応問題を導入する。
本稿では,2つのモデル間の予測整合性を規則化する協調的整合性トレーニングフレームワークを提案する。
実験により,いくつかのベンチマークデータセットにおける本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-07-07T08:19:40Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Texture-Based Input Feature Selection for Action Recognition [3.9596068699962323]
本稿では,ドメインの差分を増大させる入力におけるタスク関連コンテンツを決定する新しい手法を提案する。
提案モデルは,HMDB-51データセットとPenn Actionデータセットにおいて,既存の行動認識モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-28T23:56:31Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - Video Test-Time Adaptation for Action Recognition [24.596473019563398]
アクション認識システムは、テストデータの予期しない分散シフトに対して脆弱である。
本稿では,ビデオ行動認識モデルの共通分布シフトに対するテスト時間適応を提案する。
提案手法は,既存のテスト時間適応手法よりもかなりの性能向上を示した。
論文 参考訳(メタデータ) (2022-11-24T10:49:54Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Wavelet-Based Hybrid Machine Learning Model for Out-of-distribution
Internet Traffic Prediction [3.689539481706835]
本稿では,eXtreme Gradient Boosting, Light Gradient Boosting Machine, Gradient Descent, Gradient Boosting Regressor, Cat Regressorを用いた機械学習性能について検討する。
本稿では,ウェーブレット分解を統合したハイブリッド機械学習モデルを提案する。
論文 参考訳(メタデータ) (2022-05-09T14:34:42Z) - Few Shot Activity Recognition Using Variational Inference [9.371378627575883]
本稿では,少数のショットアクティビティ認識のための新しい変分推論ベースアーキテクチャフレームワーク(HF-AR)を提案する。
筆者らの枠組みは, 容積保存型家庭用フローを活用して, 新規クラスの柔軟な後部分布を学習する。
これにより、人間の行動認識のための最先端のショットアプローチと比較して、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-08-20T03:57:58Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。