論文の概要: Improve Video Representation with Temporal Adversarial Augmentation
- arxiv url: http://arxiv.org/abs/2304.14601v1
- Date: Fri, 28 Apr 2023 03:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 15:24:20.742458
- Title: Improve Video Representation with Temporal Adversarial Augmentation
- Title(参考訳): 時間的敵意増強による映像表現の改善
- Authors: Jinhao Duan, Quanfu Fan, Hao Cheng, Xiaoshuang Shi, Kaidi Xu
- Abstract要約: 本稿では,時間的注意を生かしたビデオ拡張技術である時間的対位法(TA)について紹介する。
TAは、ニューラルネットワークの焦点に大きな影響を及ぼす多様な時間的視点が得られることを実証する。
TAを活用するために,ビデオ表現を改善するためのTAF(Temporal Video Adversarial Fine-tuning)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.258144986902206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works reveal that adversarial augmentation benefits the generalization
of neural networks (NNs) if used in an appropriate manner. In this paper, we
introduce Temporal Adversarial Augmentation (TA), a novel video augmentation
technique that utilizes temporal attention. Unlike conventional adversarial
augmentation, TA is specifically designed to shift the attention distributions
of neural networks with respect to video clips by maximizing a temporal-related
loss function. We demonstrate that TA will obtain diverse temporal views, which
significantly affect the focus of neural networks. Training with these examples
remedies the flaw of unbalanced temporal information perception and enhances
the ability to defend against temporal shifts, ultimately leading to better
generalization. To leverage TA, we propose Temporal Video Adversarial
Fine-tuning (TAF) framework for improving video representations. TAF is a
model-agnostic, generic, and interpretability-friendly training strategy. We
evaluate TAF with four powerful models (TSM, GST, TAM, and TPN) over three
challenging temporal-related benchmarks (Something-something V1&V2 and
diving48). Experimental results demonstrate that TAF effectively improves the
test accuracy of these models with notable margins without introducing
additional parameters or computational costs. As a byproduct, TAF also improves
the robustness under out-of-distribution (OOD) settings. Code is available at
https://github.com/jinhaoduan/TAF.
- Abstract(参考訳): 近年の研究では、ニューラルネットワーク(NN)を適切に使用すれば、対向的な拡張が一般化の恩恵を受けることが示されている。
本稿では,時間的注意を利用する新しい映像拡張手法であるtemporal adversarial augmentedation (ta)を提案する。
従来の敵対的拡張とは異なり、TAは時間的関連損失関数を最大化することにより、ビデオクリップに対するニューラルネットワークの注意分布をシフトするように特別に設計されている。
TAは、ニューラルネットワークの焦点に大きな影響を及ぼす多様な時間的視点が得られることを実証する。
これらの例によるトレーニングは、不均衡な時間的情報知覚の欠陥を修復し、時間的シフトに対して防御する能力を高め、最終的にはより一般化する。
TAを活用するために,ビデオ表現を改善するためのTAF(Temporal Video Adversarial Fine-tuning)フレームワークを提案する。
tafはモデルに依存しない、汎用的で、解釈しやすいトレーニング戦略である。
TSM, GST, TAM, TPNの4つの強力なモデルを用いて, 時間関連ベンチマーク(V1&V2, dive48)を用いてTAFを評価する。
実験結果から,TAFはパラメータや計算コストを伴わずに,有意なマージンでこれらのモデルの試験精度を効果的に向上することが示された。
副産物として、TAFはアウト・オブ・ディストリビューション(OOD)設定下での堅牢性も改善する。
コードはhttps://github.com/jinhaoduan/tafで入手できる。
関連論文リスト
- Fourier-basis Functions to Bridge Augmentation Gap: Rethinking Frequency
Augmentation in Image Classification [3.129187821625805]
AFA(Auxiliary Fourier-Basis Augmentation)は、周波数領域の増大を狙った技法であり、視覚的な拡張によって残された拡張ギャップを埋めるものである。
以上の結果から,AFAは,一般的な汚職に対するモデルの堅牢性,OODの一般化,モデルの性能の整合性,摂動の増大に対するモデルの性能の整合性,モデルの標準性能に対する無視的欠陥に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-03-04T11:30:02Z) - Distillation Enhanced Time Series Forecasting Network with Momentum
Contrastive Learning [8.328861861105889]
長周期時系列予測のための革新的蒸留強化フレームワークであるDE-TSMCLを提案する。
具体的には、タイムスタンプをマスクするかどうかを適応的に学習する学習可能なデータ拡張機構を設計する。
そこで本研究では,時系列のサンプル間および時間内相関を探索するために,モーメントを更新したコントラスト学習タスクを提案する。
複数のタスクからモデル損失を発生させることで、下流予測タスクの効果的な表現を学習することができる。
論文 参考訳(メタデータ) (2024-01-31T12:52:10Z) - Streaming Anchor Loss: Augmenting Supervision with Temporal Significance [5.7654216719335105]
様々な音声や知覚信号に対する高速なフレームワイズ応答のためのストリーミングニューラルネットワークモデルは、リソース制約のあるプラットフォームで広く採用されている。
本稿では,学習能力の向上を目的とした新たな損失SAL(Streaming Anchor Loss)を提案する。
論文 参考訳(メタデータ) (2023-10-09T17:28:35Z) - Enhance Diffusion to Improve Robust Generalization [39.9012723077658]
emphAdversarial Training (AT)は、敵の摂動に対する最も強力な防御機構の1つである。
本稿では, 第一のATフレームワークであるGD-AT(Projected Gradient Descent Adversarial Training)に焦点を当てる。
本稿では,分散項を操作し,計算負荷を実質的に伴わない堅牢な一般化を改善するための新しい手法であるemphDiffusion Enhanced Adversarial Training (DEAT)を提案する。
論文 参考訳(メタデータ) (2023-06-05T06:36:18Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。
共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Enhancing Adversarial Robustness via Test-time Transformation Ensembling [51.51139269928358]
テスト時間変換を組み込んだモデルを組み込むことが,敵攻撃に対する信頼性の高い防御手段として有効であることを示す。
TTEは、再トレーニングを必要とせずに、様々な強力な攻撃に対するモデルロバスト性を一貫して改善することを示します。
論文 参考訳(メタデータ) (2021-07-29T15:32:35Z) - Salient Feature Extractor for Adversarial Defense on Deep Neural
Networks [2.993911699314388]
モデルによって元のデータセットから学習された非可燃性特徴による逆転例の観察を動機として,salient feature (SF) と trivial feature (TF) の概念を提案する。
敵の攻撃から守るために, サルエント特徴抽出器 (SFE) という新しい検出・防御手法を考案した。
論文 参考訳(メタデータ) (2021-05-14T12:56:06Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。