論文の概要: What Can Simple Arithmetic Operations Do for Temporal Modeling?
- arxiv url: http://arxiv.org/abs/2307.08908v1
- Date: Tue, 18 Jul 2023 00:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 17:01:14.346009
- Title: What Can Simple Arithmetic Operations Do for Temporal Modeling?
- Title(参考訳): 簡単な算術的操作は時間モデリングに何ができるか?
- Authors: Wenhao Wu, Yuxin Song, Zhun Sun, Jingdong Wang, Chang Xu, Wanli Ouyang
- Abstract要約: テンポラルモデリングはビデオコンテンツを理解する上で重要な役割を担っている。
従来の研究は、計算力のある装置の開発により、時間列を通して複雑な時間関係を構築していた。
本研究では,時間的モデリングのための4つの簡単な算術演算の可能性について検討する。
- 参考スコア(独自算出の注目度): 121.01457065775597
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Temporal modeling plays a crucial role in understanding video content. To
tackle this problem, previous studies built complicated temporal relations
through time sequence thanks to the development of computationally powerful
devices. In this work, we explore the potential of four simple arithmetic
operations for temporal modeling. Specifically, we first capture auxiliary
temporal cues by computing addition, subtraction, multiplication, and division
between pairs of extracted frame features. Then, we extract corresponding
features from these cues to benefit the original temporal-irrespective domain.
We term such a simple pipeline as an Arithmetic Temporal Module (ATM), which
operates on the stem of a visual backbone with a plug-andplay style. We conduct
comprehensive ablation studies on the instantiation of ATMs and demonstrate
that this module provides powerful temporal modeling capability at a low
computational cost. Moreover, the ATM is compatible with both CNNs- and
ViTs-based architectures. Our results show that ATM achieves superior
performance over several popular video benchmarks. Specifically, on
Something-Something V1, V2 and Kinetics-400, we reach top-1 accuracy of 65.6%,
74.6%, and 89.4% respectively. The code is available at
https://github.com/whwu95/ATM.
- Abstract(参考訳): 時間モデリングはビデオコンテンツを理解する上で重要な役割を果たす。
この問題に取り組むために、従来の研究では、計算能力の高いデバイスの開発により、時系列を通じて複雑な時間関係を構築した。
本研究では,時間モデリングのための4つの単純な算術演算の可能性について検討する。
具体的には, 抽出されたフレーム特徴のペア間の加算, 減算, 乗算, 分割を計算し, 補助的な時間的手がかりを捉えた。
次に、これらの手がかりから対応する特徴を抽出し、元の時間非依存領域に便益を与える。
このような単純なパイプラインを算術的テンポラリモジュール(atm)と呼び、プラグアンドプレイスタイルで視覚的バックボーンの茎を操作する。
我々はATMのインスタンス化に関する包括的なアブレーション研究を行い、このモジュールが低計算コストで強力な時間モデリング機能を提供することを示した。
さらにATMはCNNとViTsベースのアーキテクチャの両方に対応している。
以上の結果から,ATMは人気ビデオベンチマークよりも優れた性能を示した。
具体的には、Something V1、V2、Kinetics-400では、それぞれ65.6%、74.6%、89.4%というトップ1の精度に達した。
コードは https://github.com/whwu95/ATM で入手できる。
関連論文リスト
- No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding [38.60950616529459]
我々は,ビデオシーケンスの時間軸をチャネル次元に絞り込み,モバイルビデオ理解のための軽量なビデオ認識ネットワークであるtextitSqueezeTime を提案する。
提案されているSqueezeTimeは、非常に軽量で高速で、モバイルビデオ理解の精度が高い。
論文 参考訳(メタデータ) (2024-05-14T06:32:40Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - TSM: Temporal Shift Module for Efficient and Scalable Video
Understanding on Edge Device [58.776352999540435]
本稿では,高能率かつ高能率な時間シフトモジュール(TSM)を提案する。
TSMは2次元CNNに挿入され、ゼロ計算とゼロパラメータでの時間的モデリングを実現する。
Jetson NanoとGalaxy Note8のオンラインビデオ認識では、74fpsと29fpsのハイフレームレートを実現している。
論文 参考訳(メタデータ) (2021-09-27T17:59:39Z) - SSAN: Separable Self-Attention Network for Video Representation Learning [11.542048296046524]
本稿では,空間的および時間的相関を逐次モデル化する分離型自己アテンションモジュールを提案する。
2次元CNNにSSAモジュールを追加することで、ビデオ表現学習のためのSSAネットワーク(SSAN)を構築する。
提案手法は,Something と Kinetics-400 データセットの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-05-27T10:02:04Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。