論文の概要: Adversarial Augmentation Training Makes Action Recognition Models More Robust to Realistic Video Distribution Shifts
- arxiv url: http://arxiv.org/abs/2401.11406v2
- Date: Mon, 14 Jul 2025 04:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:20.862744
- Title: Adversarial Augmentation Training Makes Action Recognition Models More Robust to Realistic Video Distribution Shifts
- Title(参考訳): リアルな映像配信変化に対する行動認識モデルのロバスト化
- Authors: Kiyoon Kim, Shreyank N Gowda, Panagiotis Eustratiadis, Antreas Antoniou, Robert B Fisher,
- Abstract要約: アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 12.818400676159953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in video action recognition achieving strong performance on existing benchmarks, these models often lack robustness when faced with natural distribution shifts between training and test data. We propose two novel evaluation methods to assess model resilience to such distribution disparity. One method uses two different datasets collected from different sources and uses one for training and validation, and the other for testing. More precisely, we created dataset splits of HMDB-51 or UCF-101 for training, and Kinetics-400 for testing, using the subset of the classes that are overlapping in both train and test datasets. The other proposed method extracts the feature mean of each class from the target evaluation dataset's training data (i.e. class prototype) and estimates test video prediction as a cosine similarity score between each sample to the class prototypes of each target class. This procedure does not alter model weights using the target dataset and it does not require aligning overlapping classes of two different datasets, thus is a very efficient method to test the model robustness to distribution shifts without prior knowledge of the target distribution. We address the robustness problem by adversarial augmentation training - generating augmented views of videos that are "hard" for the classification model by applying gradient ascent on the augmentation parameters - as well as "curriculum" scheduling the strength of the video augmentations. We experimentally demonstrate the superior performance of the proposed adversarial augmentation approach over baselines across three state-of-the-art action recognition models - TSM, Video Swin Transformer, and Uniformer. The presented work provides critical insight into model robustness to distribution shifts and presents effective techniques to enhance video action recognition performance in a real-world deployment.
- Abstract(参考訳): 最近のビデオアクション認識の進歩は、既存のベンチマークで高いパフォーマンスを実現しているが、これらのモデルは、トレーニングとテストデータの間の自然な分布シフトに直面したとき、しばしばロバスト性に欠ける。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
1つのメソッドは、異なるソースから収集された2つの異なるデータセットを使用し、1つはトレーニングと検証に、もう1つはテストに使用する。
より正確には、トレーニング用のHMDB-51またはUCF-101のデータセット分割と、テスト用のKinetics-400を作成しました。
提案手法は,対象評価データセットのトレーニングデータ(例えば,クラスプロトタイプ)から各クラスの特徴平均を抽出し,各サンプルと対象クラスのクラスプロトタイプとの間のコサイン類似度スコアとしてテストビデオ予測を推定する。
この方法では、ターゲットデータセットを使用したモデル重み付けを変更せず、2つの異なるデータセットの重なり合うクラスを調整する必要はなく、ターゲット分布の事前の知識を必要とせずに、分布シフトに対するモデルロバスト性をテストする非常に効率的な方法である。
本稿では, 対角的拡張トレーニングによるロバストネスの問題に対処し, ビデオ強化パラメータの勾配上昇を適用して, 分類モデルに「ハード」な映像の強化ビューを生成するとともに, ビデオ強化の強度を"キュリキュラム"でスケジューリングする。
提案手法は,TSM, Video Swin Transformer, Uniformerの3種類の動作認識モデルに対して,ベースラインよりも高い性能を示す。
本研究は,分散シフトに対するモデルロバスト性に関する重要な知見を提供し,実世界展開における映像行動認識性能を向上させる効果的な技術を提供する。
関連論文リスト
- Smooth-Distill: A Self-distillation Framework for Multitask Learning with Wearable Sensor Data [0.0]
本稿では,人間の活動認識(HAR)とセンサ配置検出を同時に行うように設計された,新しい自己蒸留フレームワークであるSmooth-Distillを紹介する。
従来の蒸留法とは異なり, 提案手法では, モデル自体のスムーズな歴史バージョンを教師として利用している。
実験結果から,Smooth-Distill は異なる評価シナリオにおける代替手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-06-27T06:51:51Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Universal Semi-supervised Model Adaptation via Collaborative Consistency
Training [92.52892510093037]
我々は、Universal Semi-supervised Model Adaptation (USMA)と呼ばれる現実的で挑戦的なドメイン適応問題を導入する。
本稿では,2つのモデル間の予測整合性を規則化する協調的整合性トレーニングフレームワークを提案する。
実験により,いくつかのベンチマークデータセットにおける本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-07-07T08:19:40Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Texture-Based Input Feature Selection for Action Recognition [3.9596068699962323]
本稿では,ドメインの差分を増大させる入力におけるタスク関連コンテンツを決定する新しい手法を提案する。
提案モデルは,HMDB-51データセットとPenn Actionデータセットにおいて,既存の行動認識モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-28T23:56:31Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - Video Test-Time Adaptation for Action Recognition [24.596473019563398]
アクション認識システムは、テストデータの予期しない分散シフトに対して脆弱である。
本稿では,ビデオ行動認識モデルの共通分布シフトに対するテスト時間適応を提案する。
提案手法は,既存のテスト時間適応手法よりもかなりの性能向上を示した。
論文 参考訳(メタデータ) (2022-11-24T10:49:54Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Wavelet-Based Hybrid Machine Learning Model for Out-of-distribution
Internet Traffic Prediction [3.689539481706835]
本稿では,eXtreme Gradient Boosting, Light Gradient Boosting Machine, Gradient Descent, Gradient Boosting Regressor, Cat Regressorを用いた機械学習性能について検討する。
本稿では,ウェーブレット分解を統合したハイブリッド機械学習モデルを提案する。
論文 参考訳(メタデータ) (2022-05-09T14:34:42Z) - Few Shot Activity Recognition Using Variational Inference [9.371378627575883]
本稿では,少数のショットアクティビティ認識のための新しい変分推論ベースアーキテクチャフレームワーク(HF-AR)を提案する。
筆者らの枠組みは, 容積保存型家庭用フローを活用して, 新規クラスの柔軟な後部分布を学習する。
これにより、人間の行動認識のための最先端のショットアプローチと比較して、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-08-20T03:57:58Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。