論文の概要: AdaFuse: Adaptive Temporal Fusion Network for Efficient Action
Recognition
- arxiv url: http://arxiv.org/abs/2102.05775v1
- Date: Wed, 10 Feb 2021 23:31:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 14:15:59.854913
- Title: AdaFuse: Adaptive Temporal Fusion Network for Efficient Action
Recognition
- Title(参考訳): AdaFuse: 効率的な行動認識のための適応型時間融合ネットワーク
- Authors: Yue Meng, Rameswar Panda, Chung-Ching Lin, Prasanna Sattigeri, Leonid
Karlinsky, Kate Saenko, Aude Oliva, Rogerio Feris
- Abstract要約: テンポラルモデリングは、効率的なビデオアクション認識の鍵である。
我々はAdaFuseと呼ばれる適応時間融合ネットワークを導入し、現在の特徴マップと過去の特徴マップからチャネルを融合する。
我々の手法は、最先端の手法に匹敵する精度で、約40%の計算節約を達成できる。
- 参考スコア(独自算出の注目度): 68.70214388982545
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Temporal modelling is the key for efficient video action recognition. While
understanding temporal information can improve recognition accuracy for dynamic
actions, removing temporal redundancy and reusing past features can
significantly save computation leading to efficient action recognition. In this
paper, we introduce an adaptive temporal fusion network, called AdaFuse, that
dynamically fuses channels from current and past feature maps for strong
temporal modelling. Specifically, the necessary information from the historical
convolution feature maps is fused with current pruned feature maps with the
goal of improving both recognition accuracy and efficiency. In addition, we use
a skipping operation to further reduce the computation cost of action
recognition. Extensive experiments on Something V1 & V2, Jester and
Mini-Kinetics show that our approach can achieve about 40% computation savings
with comparable accuracy to state-of-the-art methods. The project page can be
found at https://mengyuest.github.io/AdaFuse/
- Abstract(参考訳): 時間モデリングは、効率的なビデオアクション認識の鍵です。
時間的情報を理解することで動的動作の認識精度が向上する一方で、時間的冗長性を取り除き、過去の特徴を再利用することで、効率的な動作認識につながる計算を大幅に節約することができる。
本稿では,現在および過去の特徴地図からチャネルを動的に融合し,強い時間的モデリングを行う適応型時間的融合ネットワークadafuseを提案する。
具体的には、過去の畳み込み特徴マップから必要な情報を、現在の刈り込み特徴マップと融合させ、認識精度と効率を両立させる。
さらに,行動認識の計算コストをさらに削減するために,スキップ操作を用いる。
Something V1 & V2、Jester、Mini-Kineticsの広範な実験は、私たちのアプローチが最先端の方法と同等の精度で約40%の計算節約を達成できることを示しています。
プロジェクトページはhttps://mengyuest.github.io/AdaFuse/にある。
関連論文リスト
- TDS-CLIP: Temporal Difference Side Network for Image-to-Video Transfer Learning [6.329214318116305]
本稿では,知識伝達と時間的モデリングのバランスをとるために,メモリ効率の良い時間差分側ネットワーク(TDS-CLIP)を提案する。
具体的には、動作特徴の局所的な時間差を効果的に捉えることのできる時間差適応器(TD-Adapter)を導入する。
また,ビデオ中のリッチモーション情報を効率的に学習するために,提案するサイドネットワークを誘導するサイドモーション拡張アダプタ(SME-Adapter)を設計した。
論文 参考訳(メタデータ) (2024-08-20T09:40:08Z) - CAST: Cross-Attention in Space and Time for Video Action Recognition [8.785207228156098]
空間時間におけるクロスアテンション(CAST)と呼ばれる新しい2ストリームアーキテクチャを提案する。
CASTは、バランスの取れた入力のみを使用して、ビデオの時間的バランスの取れた理解を実現する。
提案手法により,空間的・時間的専門家モデルによる情報交換と相乗的予測が可能となる。
論文 参考訳(メタデータ) (2023-11-30T18:58:51Z) - On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - Learning from Temporal Gradient for Semi-supervised Action Recognition [15.45239134477737]
より注意的な特徴抽出のための追加のモダリティとして時間勾配を導入する。
提案手法は,3つのビデオ行動認識ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-25T20:30:30Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Selective Feature Compression for Efficient Activity Recognition
Inference [26.43512549990624]
選択的特徴圧縮(SFC)は、精度の妥協なくモデル推論効率を大幅に向上させるアクション認識推論戦略です。
Kinetics-400, UCF101, ActivityNet を用いた実験により, SFC は, 一般的に使用されている30種類の高密度プロシージャサンプリングと比較して, 推論速度を6~7倍, 寸法使用量を5~6倍削減できることがわかった。
論文 参考訳(メタデータ) (2021-04-01T00:54:51Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。