論文の概要: Approximated Bilinear Modules for Temporal Modeling
- arxiv url: http://arxiv.org/abs/2007.12887v1
- Date: Sat, 25 Jul 2020 09:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 01:19:47.277198
- Title: Approximated Bilinear Modules for Temporal Modeling
- Title(参考訳): 時間モデリングのための近似バイリニアモジュール
- Authors: Xinqi Zhu and Chang Xu and Langwen Hui and Cewu Lu and Dacheng Tao
- Abstract要約: CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
- 参考スコア(独自算出の注目度): 116.6506871576514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider two less-emphasized temporal properties of video: 1. Temporal
cues are fine-grained; 2. Temporal modeling needs reasoning. To tackle both
problems at once, we exploit approximated bilinear modules (ABMs) for temporal
modeling. There are two main points making the modules effective: two-layer
MLPs can be seen as a constraint approximation of bilinear operations, thus can
be used to construct deep ABMs in existing CNNs while reusing pretrained
parameters; frame features can be divided into static and dynamic parts because
of visual repetition in adjacent frames, which enables temporal modeling to be
more efficient. Multiple ABM variants and implementations are investigated,
from high performance to high efficiency. Specifically, we show how two-layer
subnets in CNNs can be converted to temporal bilinear modules by adding an
auxiliary-branch. Besides, we introduce snippet sampling and shifting inference
to boost sparse-frame video classification performance. Extensive ablation
studies are conducted to show the effectiveness of proposed techniques. Our
models can outperform most state-of-the-art methods on Something-Something v1
and v2 datasets without Kinetics pretraining, and are also competitive on other
YouTube-like action recognition datasets. Our code is available on
https://github.com/zhuxinqimac/abm-pytorch.
- Abstract(参考訳): ビデオの時間的特性を2つ強調する。
1. 時間的手がかりはきめ細かい;
2. 時間モデリングには推論が必要である。
両問題を同時に解決するために,近似双線型加群 (abms) を時間モデルに適用する。
2層MLPは双線形演算の制約近似と見なすことができ、したがって既存のCNNで事前訓練されたパラメータを再利用しながら深いABMを構築するのに使うことができる。
高性能から高効率まで,複数のabm変種と実装を調査した。
具体的には,CNNの2層サブネットを補助分岐を追加することで,時間的双線形加群に変換する方法を示す。
さらに,スニペットサンプリングとシフト推論を導入し,スパースフレーム映像分類性能を向上させる。
提案手法の有効性を示すため,広範囲にわたるアブレーション研究を行った。
我々のモデルは、Kineetics事前トレーニングなしで、Something v1とv2データセットの最先端の手法よりも優れており、他のYouTubeのようなアクション認識データセットと競合する。
私たちのコードはhttps://github.com/zhuxinqimac/abm-pytorchで利用可能です。
関連論文リスト
- What Can Simple Arithmetic Operations Do for Temporal Modeling? [100.39047523315662]
テンポラルモデリングはビデオコンテンツを理解する上で重要な役割を担っている。
従来の研究は、強力なデバイスの開発により、時系列を通して複雑な時間関係を構築していた。
本研究では,時間的モデリングのための4つの簡単な算術演算の可能性について検討する。
論文 参考訳(メタデータ) (2023-07-18T00:48:56Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - TDN: Temporal Difference Networks for Efficient Action Recognition [31.922001043405924]
本稿では,時間差分ネットワーク(TDN)と呼ばれる新しいビデオアーキテクチャを提案する。
我々のTDNの中核は、時間差演算子を明示的に活用することで効率的な時間差モジュール(TDM)を考案することである。
我々のTDNは、Something V1 & V2データセットに関する新しい技術状況を示し、Kinetics-400データセットの最高のパフォーマンスと同等です。
論文 参考訳(メタデータ) (2020-12-18T06:31:08Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Diverse Temporal Aggregation and Depthwise Spatiotemporal Factorization
for Efficient Video Classification [12.787763599624173]
本稿では,時間的ワンショットアグリゲーション(T-OSA)モジュールと深度分解成分D(2+1)Dからなる,VoV3Dと呼ばれる効率的な時間的モデリング3Dアーキテクチャを提案する。
時間モデリングの効率性と有効性により、VoV3D-Lは6倍のモデルパラメータと16倍の計算能力を有しており、SomesingとKineeticsの双方で最先端の時間モデリング手法に勝っている。
論文 参考訳(メタデータ) (2020-12-01T07:40:06Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。