論文の概要: Spatiotemporal Augmentation on Selective Frequencies for Video
Representation Learning
- arxiv url: http://arxiv.org/abs/2204.03865v1
- Date: Fri, 8 Apr 2022 06:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 13:10:11.582572
- Title: Spatiotemporal Augmentation on Selective Frequencies for Video
Representation Learning
- Title(参考訳): 映像表現学習における選択周波数の時空間拡大
- Authors: Jinhyung Kim, Taeoh Kim, Minho Shim, Dongyoon Han, Dongyoon Wee and
Junmo Kim
- Abstract要約: ビデオ表現のための周波数領域におけるデータ拡張をフィルタするFreqAugを提案する。
FreqAugは、空間的または時間的低周波成分をドロップすることで、ビデオのダイナミック機能にもっとフォーカスするようにモデルをプッシュする。
提案手法の汎用性を検証するため,FreqAugを複数の自己教師型学習フレームワーク上で実験し,標準拡張を行った。
- 参考スコア(独自算出の注目度): 36.352159541825095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent self-supervised video representation learning methods focus on
maximizing the similarity between multiple augmented views from the same video
and largely rely on the quality of generated views. In this paper, we propose
frequency augmentation (FreqAug), a spatio-temporal data augmentation method in
the frequency domain for video representation learning. FreqAug stochastically
removes undesirable information from the video by filtering out specific
frequency components so that learned representation captures essential features
of the video for various downstream tasks. Specifically, FreqAug pushes the
model to focus more on dynamic features rather than static features in the
video via dropping spatial or temporal low-frequency components. In other
words, learning invariance between remaining frequency components results in
high-frequency enhanced representation with less static bias. To verify the
generality of the proposed method, we experiment with FreqAug on multiple
self-supervised learning frameworks along with standard augmentations.
Transferring the improved representation to five video action recognition and
two temporal action localization downstream tasks shows consistent improvements
over baselines.
- Abstract(参考訳): 近年の自己監督型ビデオ表現学習法は,複数の拡張ビュー間の類似度を最大化することに集中しており,生成ビューの品質に大きく依存している。
本稿では、ビデオ表現学習のための周波数領域における時空間データ拡張手法である周波数拡張(FreqAug)を提案する。
freqaugは、特定の周波数成分をフィルタリングすることで、ビデオから望ましくない情報を確率的に削除し、学習された表現は、さまざまな下流タスクでビデオの本質的な特徴をキャプチャする。
特にfreqaugは、空間的または時間的低周波成分を落とすことによって、動画の静的機能よりも動的機能に重点を置くようにモデルを押している。
言い換えれば、残周波成分間の不変性の学習は、静的バイアスの少ない高周波拡張表現をもたらす。
提案手法の汎用性を検証するため,FreqAugを複数の自己教師型学習フレームワーク上で実験し,標準拡張を行った。
改善された表現を5つのビデオアクション認識と2つの時間的アクションローカライゼーションに転送すると、ベースラインよりも一貫した改善が示される。
関連論文リスト
- Multi-View Frequency-Attention Alternative to CNN Frontends for
Automatic Speech Recognition [12.980843126905203]
周波数に対するグローバルな関心は、局所的な畳み込みよりも有益であることを示す。
畳み込み型ニューラルネットワークトランスデューサに代えて,生産規模での単語誤り率を2.4%削減する。
論文 参考訳(メタデータ) (2023-06-12T08:37:36Z) - Learning Spatiotemporal Frequency-Transformer for Low-Quality Video
Super-Resolution [47.5883522564362]
Video Super-Resolution (VSR)は、高解像度(HR)ビデオを低解像度(LR)ビデオから復元することを目的としている。
既存のVSR技術は通常、近くのフレームから既知の劣化プロセスでテクスチャを抽出することでHRフレームを復元する。
本稿では,空間-時間-周波数領域の組み合わせで自己アテンションを行う低品質ビデオを扱うための新しい周波数変換器(FTVSR)を提案する。
論文 参考訳(メタデータ) (2022-12-27T16:26:15Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Controllable Augmentations for Video Representation Learning [34.79719112810065]
本稿では,ローカルクリップとグローバルビデオを併用して,詳細な地域レベルの対応から学習し,時間的関係を最小化する枠組みを提案する。
我々のフレームワークは、アクション認識とビデオ検索の3つのビデオベンチマークよりも優れており、より正確な時間的ダイナミクスを捉えることができる。
論文 参考訳(メタデータ) (2022-03-30T19:34:32Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - Time-Equivariant Contrastive Video Representation Learning [47.50766781135863]
本稿では,非競合ビデオから表現を学習するための,自己指導型コントラスト学習手法を提案する。
実験により,映像検索と行動認識のベンチマークにおいて,時変表現が最先端の結果をもたらすことが示された。
論文 参考訳(メタデータ) (2021-12-07T10:45:43Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。