論文の概要: Improve Video Representation with Temporal Adversarial Augmentation
- arxiv url: http://arxiv.org/abs/2304.14601v2
- Date: Sun, 14 May 2023 19:25:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 20:54:07.064048
- Title: Improve Video Representation with Temporal Adversarial Augmentation
- Title(参考訳): 時間的敵意増強による映像表現の改善
- Authors: Jinhao Duan, Quanfu Fan, Hao Cheng, Xiaoshuang Shi, Kaidi Xu
- Abstract要約: 本稿では,時間的注意を生かしたビデオ拡張技術である時間的対位法(TA)について紹介する。
TAは、ニューラルネットワークの焦点に大きな影響を及ぼす多様な時間的視点が得られることを実証する。
TAを活用するために,ビデオ表現を改善するためのTAF(Temporal Video Adversarial Fine-tuning)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.258144986902206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works reveal that adversarial augmentation benefits the generalization
of neural networks (NNs) if used in an appropriate manner. In this paper, we
introduce Temporal Adversarial Augmentation (TA), a novel video augmentation
technique that utilizes temporal attention. Unlike conventional adversarial
augmentation, TA is specifically designed to shift the attention distributions
of neural networks with respect to video clips by maximizing a temporal-related
loss function. We demonstrate that TA will obtain diverse temporal views, which
significantly affect the focus of neural networks. Training with these examples
remedies the flaw of unbalanced temporal information perception and enhances
the ability to defend against temporal shifts, ultimately leading to better
generalization. To leverage TA, we propose Temporal Video Adversarial
Fine-tuning (TAF) framework for improving video representations. TAF is a
model-agnostic, generic, and interpretability-friendly training strategy. We
evaluate TAF with four powerful models (TSM, GST, TAM, and TPN) over three
challenging temporal-related benchmarks (Something-something V1&V2 and
diving48). Experimental results demonstrate that TAF effectively improves the
test accuracy of these models with notable margins without introducing
additional parameters or computational costs. As a byproduct, TAF also improves
the robustness under out-of-distribution (OOD) settings. Code is available at
https://github.com/jinhaoduan/TAF.
- Abstract(参考訳): 近年の研究では、ニューラルネットワーク(NN)を適切に使用すれば、対向的な拡張が一般化の恩恵を受けることが示されている。
本稿では,時間的注意を利用する新しい映像拡張手法であるtemporal adversarial augmentedation (ta)を提案する。
従来の敵対的拡張とは異なり、TAは時間的関連損失関数を最大化することにより、ビデオクリップに対するニューラルネットワークの注意分布をシフトするように特別に設計されている。
TAは、ニューラルネットワークの焦点に大きな影響を及ぼす多様な時間的視点が得られることを実証する。
これらの例によるトレーニングは、不均衡な時間的情報知覚の欠陥を修復し、時間的シフトに対して防御する能力を高め、最終的にはより一般化する。
TAを活用するために,ビデオ表現を改善するためのTAF(Temporal Video Adversarial Fine-tuning)フレームワークを提案する。
tafはモデルに依存しない、汎用的で、解釈しやすいトレーニング戦略である。
TSM, GST, TAM, TPNの4つの強力なモデルを用いて, 時間関連ベンチマーク(V1&V2, dive48)を用いてTAFを評価する。
実験結果から,TAFはパラメータや計算コストを伴わずに,有意なマージンでこれらのモデルの試験精度を効果的に向上することが示された。
副産物として、TAFはアウト・オブ・ディストリビューション(OOD)設定下での堅牢性も改善する。
コードはhttps://github.com/jinhaoduan/tafで入手できる。
関連論文リスト
- Let Video Teaches You More: Video-to-Image Knowledge Distillation using DEtection TRansformer for Medical Video Lesion Detection [91.97935118185]
医用ビデオ病変検出のための画像間知識蒸留法を提案する。
複数フレームのコンテキストを単一のフレームに蒸留することにより、ビデオベースモデルから時間的コンテキストを利用する利点と、画像ベースモデルの推論速度を組み合わせたV2I-DETRを提案する。
V2I-DETRは、画像ベースモデルとしてリアルタイム推論速度(30FPS)を達成しつつ、従来の最先端手法を大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-08-26T07:17:05Z) - ReToMe-VA: Recursive Token Merging for Video Diffusion-based Unrestricted Adversarial Attack [71.2286719703198]
ビデオ拡散に基づく非制限アドリアック攻撃(ReToMe-VA)における再帰的トークンマージを提案する。
ReToMe-VAは、空間的非受容性を達成するために、Timestep-wise Adrial Latent Optimization (TALO)戦略を採用する。
ReToMe-VAには、ビデオフレーム間でトークンのマッチングとマージを行うRecursive Token Merging(ReToMe)メカニズムが導入されている。
論文 参考訳(メタデータ) (2024-08-10T08:10:30Z) - Fourier-basis Functions to Bridge Augmentation Gap: Rethinking Frequency
Augmentation in Image Classification [3.129187821625805]
AFA(Auxiliary Fourier-Basis Augmentation)は、周波数領域の増大を狙った技法であり、視覚的な拡張によって残された拡張ギャップを埋めるものである。
以上の結果から,AFAは,一般的な汚職に対するモデルの堅牢性,OODの一般化,モデルの性能の整合性,摂動の増大に対するモデルの性能の整合性,モデルの標準性能に対する無視的欠陥に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-03-04T11:30:02Z) - Streaming Anchor Loss: Augmenting Supervision with Temporal Significance [5.7654216719335105]
様々な音声や知覚信号に対する高速なフレームワイズ応答のためのストリーミングニューラルネットワークモデルは、リソース制約のあるプラットフォームで広く採用されている。
本稿では,学習能力の向上を目的とした新たな損失SAL(Streaming Anchor Loss)を提案する。
論文 参考訳(メタデータ) (2023-10-09T17:28:35Z) - Enhance Diffusion to Improve Robust Generalization [39.9012723077658]
emphAdversarial Training (AT)は、敵の摂動に対する最も強力な防御機構の1つである。
本稿では, 第一のATフレームワークであるGD-AT(Projected Gradient Descent Adversarial Training)に焦点を当てる。
本稿では,分散項を操作し,計算負荷を実質的に伴わない堅牢な一般化を改善するための新しい手法であるemphDiffusion Enhanced Adversarial Training (DEAT)を提案する。
論文 参考訳(メタデータ) (2023-06-05T06:36:18Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。
共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。