論文の概要: SSAN: Separable Self-Attention Network for Video Representation Learning
- arxiv url: http://arxiv.org/abs/2105.13033v1
- Date: Thu, 27 May 2021 10:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:19:40.333279
- Title: SSAN: Separable Self-Attention Network for Video Representation Learning
- Title(参考訳): SSAN:ビデオ表現学習のための分離型自己認識ネットワーク
- Authors: Xudong Guo, Xun Guo, Yan Lu
- Abstract要約: 本稿では,空間的および時間的相関を逐次モデル化する分離型自己アテンションモジュールを提案する。
2次元CNNにSSAモジュールを追加することで、ビデオ表現学習のためのSSAネットワーク(SSAN)を構築する。
提案手法は,Something と Kinetics-400 データセットの最先端手法より優れている。
- 参考スコア(独自算出の注目度): 11.542048296046524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-attention has been successfully applied to video representation learning
due to the effectiveness of modeling long range dependencies. Existing
approaches build the dependencies merely by computing the pairwise correlations
along spatial and temporal dimensions simultaneously. However, spatial
correlations and temporal correlations represent different contextual
information of scenes and temporal reasoning. Intuitively, learning spatial
contextual information first will benefit temporal modeling. In this paper, we
propose a separable self-attention (SSA) module, which models spatial and
temporal correlations sequentially, so that spatial contexts can be efficiently
used in temporal modeling. By adding SSA module into 2D CNN, we build a SSA
network (SSAN) for video representation learning. On the task of video action
recognition, our approach outperforms state-of-the-art methods on
Something-Something and Kinetics-400 datasets. Our models often outperform
counterparts with shallower network and fewer modalities. We further verify the
semantic learning ability of our method in visual-language task of video
retrieval, which showcases the homogeneity of video representations and text
embeddings. On MSR-VTT and Youcook2 datasets, video representations learnt by
SSA significantly improve the state-of-the-art performance.
- Abstract(参考訳): ビデオ表現学習において,長期依存のモデル化の有効性から自己注意がうまく適用されている。
既存のアプローチでは、単に空間的および時間的次元に沿ってペアワイズ相関を計算するだけで依存関係を構築することができる。
しかし、空間的相関と時間的相関は、場面の異なる文脈情報と時間的推論を表す。
直感的には、まず空間的文脈情報を学ぶことは、時間的モデリングに役立つ。
本稿では,空間的・時間的相関を逐次的にモデル化し,空間的コンテキストを時間的モデリングに効率的に利用できる分離型自己注意モジュールを提案する。
2次元CNNにSSAモジュールを追加することで、ビデオ表現学習のためのSSAネットワーク(SSAN)を構築する。
ビデオ行動認識のタスクにおいて,本手法は,Something と Kinetics-400 データセットの最先端手法よりも優れている。
私たちのモデルは、ネットワークが浅く、モダリティも少ないモデルよりも優れています。
さらに,ビデオ検索の視覚的タスクにおける本手法のセマンティック学習能力を検証し,映像表現とテキスト埋め込みの均一性を示す。
MSR-VTTとYoucook2データセットでは、SSAが学習したビデオ表現が最先端のパフォーマンスを大幅に向上させる。
関連論文リスト
- Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Surgical Skill Assessment via Video Semantic Aggregation [20.396898001950156]
本稿では,異なる意味的部分を発見し,時間次元にまたがって集約する,スキルアセスメントフレームワークであるビデオセマンティックアグリゲーション(ViSA)を提案する。
意味的部分の明示的な発見は、ニューラルネットワークの決定を理解するのに役立つ説明的可視化を提供する。
2つのデータセットの実験は、最先端の手法と比較して、ViSAの競争力を示している。
論文 参考訳(メタデータ) (2022-08-04T12:24:01Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Comparison of Spatiotemporal Networks for Learning Video Related Tasks [0.0]
シーケンスから学習する多くの方法は、個々のフレームから時間的に2D CNNの特徴を処理したり、高性能な2D CNNアーキテクチャ内で直接的に3D畳み込みを利用する。
この研究は、MNISTベースのビデオデータセットを構築し、一般的なビデオ関連タスクのファセット(分類、順序付け、速度推定)のパラメータを制御する。
このデータセットでトレーニングされたモデルは、タスクと2D畳み込み、3D畳み込み、または畳み込みLSTMの使用によって、重要な方法で異なることが示されている。
論文 参考訳(メタデータ) (2020-09-15T19:57:50Z) - IAUnet: Global Context-Aware Feature Learning for Person
Re-Identification [106.50534744965955]
IAUブロックは、グローバル空間、時間、チャネルコンテキストを組み込むことができる。
軽量でエンドツーエンドのトレーニングが可能で、既存のCNNに簡単に接続してIAUnetを形成することができる。
実験の結果、IAUnetは画像とビデオの両方で最先端のreIDタスクに対して好意的に機能することがわかった。
論文 参考訳(メタデータ) (2020-09-02T13:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。