論文の概要: Selective Feature Compression for Efficient Activity Recognition
Inference
- arxiv url: http://arxiv.org/abs/2104.00179v1
- Date: Thu, 1 Apr 2021 00:54:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:43:26.333452
- Title: Selective Feature Compression for Efficient Activity Recognition
Inference
- Title(参考訳): 効率的な活動認識推定のための選択的特徴圧縮
- Authors: Chunhui Liu, Xinyu Li, Hao Chen, Davide Modolo, Joseph Tighe
- Abstract要約: 選択的特徴圧縮(SFC)は、精度の妥協なくモデル推論効率を大幅に向上させるアクション認識推論戦略です。
Kinetics-400, UCF101, ActivityNet を用いた実験により, SFC は, 一般的に使用されている30種類の高密度プロシージャサンプリングと比較して, 推論速度を6~7倍, 寸法使用量を5~6倍削減できることがわかった。
- 参考スコア(独自算出の注目度): 26.43512549990624
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most action recognition solutions rely on dense sampling to precisely cover
the informative temporal clip. Extensively searching temporal region is
expensive for a real-world application. In this work, we focus on improving the
inference efficiency of current action recognition backbones on trimmed videos,
and illustrate that one action model can also cover then informative region by
dropping non-informative features. We present Selective Feature Compression
(SFC), an action recognition inference strategy that greatly increase model
inference efficiency without any accuracy compromise. Differently from previous
works that compress kernel sizes and decrease the channel dimension, we propose
to compress feature flow at spatio-temporal dimension without changing any
backbone parameters. Our experiments on Kinetics-400, UCF101 and ActivityNet
show that SFC is able to reduce inference speed by 6-7x and memory usage by
5-6x compared with the commonly used 30 crops dense sampling procedure, while
also slightly improving Top1 Accuracy. We thoroughly quantitatively and
qualitatively evaluate SFC and all its components and show how does SFC learn
to attend to important video regions and to drop temporal features that are
uninformative for the task of action recognition.
- Abstract(参考訳): ほとんどのアクション認識ソリューションは、情報的時間的クリップを正確にカバーするために高密度サンプリングに依存している。
時間領域の探索は、現実世界のアプリケーションには高価である。
本研究では,トリミングビデオにおける現在の動作認識バックボーンの推論効率の向上に焦点をあて,非インフォーマティブな機能をドロップすることで,ひとつのアクションモデルが適切な情報領域をカバーできることを示す。
本稿では,モデル推論効率を大幅に向上させる行動認識推論戦略であるsfc(selective feature compression)を提案する。
カーネルサイズを圧縮しチャネル次元を小さくする以前の研究とは違い、バックボーンパラメータを変更することなく時空間次元で特徴フローを圧縮することを提案する。
Kinetics-400, UCF101, ActivityNet を用いた実験により, SFC は, 一般的に使用されている30種類の高密度サンプリング法と比較して, 推論速度を6~7倍, メモリ使用量を5~6倍に低減し, またTop1 の精度もわずかに向上した。
我々は,SFCとそのすべての構成要素を定量的に定性的に評価し,SFCが重要な映像領域への参加を学習し,行動認識の課題に適さない時間的特徴をドロップする方法を示す。
関連論文リスト
- Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Exploring Long- and Short-Range Temporal Information for Learned Video
Compression [54.91301930491466]
圧縮性能を高めるために,映像コンテンツの特徴を活かし,時間的情報を探究することに注力する。
本稿では,画像群(GOP)内で画像の推測中に連続的に更新できる時間前処理を提案する。
この場合、時間的事前は、現在のGOP内のすべてのデコードされた画像の貴重な時間的情報を含む。
本稿では,マルチスケール補償を実現する階層構造を設計する。
論文 参考訳(メタデータ) (2022-08-07T15:57:18Z) - Task-adaptive Spatial-Temporal Video Sampler for Few-shot Action
Recognition [25.888314212797436]
本稿では,アクション認識のための新しいビデオフレームサンプリング手法を提案する。
タスク固有の時空間フレームサンプリングは時空間セレクタ(TS)と空間増幅器(SA)を介して実現される
実験では、長期ビデオを含む様々なベンチマークが大幅に向上した。
論文 参考訳(メタデータ) (2022-07-20T09:04:12Z) - Efficient Human Vision Inspired Action Recognition using Adaptive
Spatiotemporal Sampling [13.427887784558168]
本稿では,効率的な行動認識処理のための適応型視覚システムを提案する。
本システムでは,グローバルコンテキストサンプリング方式を低解像度で事前スキャンし,高精細な領域で高精細な特徴をスキップしたり,要求したりすることを決定した。
動作認識のためのEPIC-KENSとUCF-101データセットを用いたシステムの有効性を検証するとともに,提案手法により,最先端のベースラインに比べて精度の低下を許容し,推論を大幅に高速化できることを示す。
論文 参考訳(メタデータ) (2022-07-12T01:18:58Z) - Learning from Temporal Gradient for Semi-supervised Action Recognition [15.45239134477737]
より注意的な特徴抽出のための追加のモダリティとして時間勾配を導入する。
提案手法は,3つのビデオ行動認識ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-25T20:30:30Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - AdaFuse: Adaptive Temporal Fusion Network for Efficient Action
Recognition [68.70214388982545]
テンポラルモデリングは、効率的なビデオアクション認識の鍵である。
我々はAdaFuseと呼ばれる適応時間融合ネットワークを導入し、現在の特徴マップと過去の特徴マップからチャネルを融合する。
我々の手法は、最先端の手法に匹敵する精度で、約40%の計算節約を達成できる。
論文 参考訳(メタデータ) (2021-02-10T23:31:02Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。