論文の概要: Robustness Evaluation for Video Models with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.05431v1
- Date: Thu, 05 Jun 2025 08:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.157902
- Title: Robustness Evaluation for Video Models with Reinforcement Learning
- Title(参考訳): 強化学習による映像モデルのロバスト性評価
- Authors: Ashwin Ramesh Babu, Sajad Mousavi, Vineet Gundecha, Sahand Ghorbanpour, Avisek Naug, Antonio Guillen, Ricardo Luna Gutierrez, Soumyendu Sarkar,
- Abstract要約: 本研究では,映像の空間的・時間的領域を協調的に認識するマルチエージェント強化学習手法を提案する。
提案手法は,Lp測定値と平均クエリにおける最先端の解よりも優れる。
- 参考スコア(独自算出の注目度): 4.0196072781228285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the robustness of Video classification models is very challenging, specifically when compared to image-based models. With their increased temporal dimension, there is a significant increase in complexity and computational cost. One of the key challenges is to keep the perturbations to a minimum to induce misclassification. In this work, we propose a multi-agent reinforcement learning approach (spatial and temporal) that cooperatively learns to identify the given video's sensitive spatial and temporal regions. The agents consider temporal coherence in generating fine perturbations, leading to a more effective and visually imperceptible attack. Our method outperforms the state-of-the-art solutions on the Lp metric and the average queries. Our method enables custom distortion types, making the robustness evaluation more relevant to the use case. We extensively evaluate 4 popular models for video action recognition on two popular datasets, HMDB-51 and UCF-101.
- Abstract(参考訳): ビデオ分類モデルの堅牢性を評価することは、特に画像ベースモデルと比較して非常に難しい。
時間次元の増大に伴い、複雑さと計算コストが著しく増大する。
主要な課題の1つは、摂動を最小限に抑え、誤分類を誘発することである。
本研究では,映像の空間的・時間的領域を協調的に識別する多エージェント強化学習手法(空間的・時間的)を提案する。
エージェントは、微細な摂動を発生させるときの時間的コヒーレンスを考慮し、より効果的で視覚的に知覚できない攻撃をもたらす。
提案手法は,Lp測定値と平均クエリにおける最先端の解よりも優れる。
提案手法は, カスタム歪み型を許容し, ユースケースとより関連性の高いロバストネス評価を実現する。
我々は,HMDB-51とUCF-101の2つの一般的なデータセットに対して,ビデオ行動認識のための4つの一般的なモデルを評価する。
関連論文リスト
- Admitting Ignorance Helps the Video Question Answering Models to Answer [82.22149677979189]
モデルはしばしばショートカットを定め、結果として質問と回答の間に急激な相関関係が生じる、と我々は主張する。
そこで本研究では,モデルに不明瞭さを認めざるを得ない新たな学習手法を提案する。
実際に、我々のフレームワークに最先端のモデルを統合することで、その有効性を検証する。
論文 参考訳(メタデータ) (2025-01-15T12:44:52Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Breaking Temporal Consistency: Generating Video Universal Adversarial
Perturbations Using Image Models [16.36416048893487]
本稿では,画像モデルを用いたビデオアタックに時間情報を組み込む最初の試みであるBTC手法を提案する。
我々のアプローチは単純だが、目に見えないビデオモデルを攻撃するのに効果的である。
提案手法は, 各種データセットにおける有効性の観点から, 既存の手法を超越した手法である。
論文 参考訳(メタデータ) (2023-11-17T07:39:42Z) - A Lightweight Video Anomaly Detection Model with Weak Supervision and Adaptive Instance Selection [14.089888316857426]
本稿では,弱教師付きビデオ異常検出に焦点をあてる。
我々は,軽量なビデオ異常検出モデルを開発した。
我々のモデルは、最先端の手法と比較して、AUCのスコアに匹敵するか、さらに優れていることを示す。
論文 参考訳(メタデータ) (2023-10-09T01:23:08Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Efficient Robustness Assessment via Adversarial Spatial-Temporal Focus
on Videos [0.0]
本稿では,ビデオの空間時間的アタック(AstFocus)を新たに設計し,同時に焦点を絞ったキーフレームとキー領域に対するアタックを行う。
連続的なクエリにより、キーフレームとキー領域からなる縮小された検索空間が正確になっている。
4つの主流ビデオ認識モデルと3つの広く使われているアクション認識データセットの実験は、提案したAstFocus攻撃がSOTA法より優れていることを示した。
論文 参考訳(メタデータ) (2023-01-03T00:28:57Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。