論文の概要: Gate-Shift-Fuse for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2203.08897v1
- Date: Wed, 16 Mar 2022 19:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-19 08:27:53.213768
- Title: Gate-Shift-Fuse for Video Action Recognition
- Title(参考訳): 映像行動認識のためのゲートシフトファウズ
- Authors: Swathikiran Sudhakaran, Sergio Escalera, Oswald Lanz
- Abstract要約: Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。
GSFは既存の2D CNNに挿入して効率よく高性能なシフト時間特徴抽出器に変換することができる。
2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
- 参考スコア(独自算出の注目度): 43.8525418821458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional Neural Networks are the de facto models for image recognition.
However 3D CNNs, the straight forward extension of 2D CNNs for video
recognition, have not achieved the same success on standard action recognition
benchmarks. One of the main reasons for this reduced performance of 3D CNNs is
the increased computational complexity requiring large scale annotated datasets
to train them in scale. 3D kernel factorization approaches have been proposed
to reduce the complexity of 3D CNNs. Existing kernel factorization approaches
follow hand-designed and hard-wired techniques. In this paper we propose
Gate-Shift-Fuse (GSF), a novel spatio-temporal feature extraction module which
controls interactions in spatio-temporal decomposition and learns to adaptively
route features through time and combine them in a data dependent manner. GSF
leverages grouped spatial gating to decompose input tensor and channel
weighting to fuse the decomposed tensors. GSF can be inserted into existing 2D
CNNs to convert them into an efficient and high performing spatio-temporal
feature extractor, with negligible parameter and compute overhead. We perform
an extensive analysis of GSF using two popular 2D CNN families and achieve
state-of-the-art or competitive performance on five standard action recognition
benchmarks. Code and models will be made publicly available at
https://github.com/swathikirans/GSF.
- Abstract(参考訳): 畳み込みニューラルネットワークは、画像認識のためのデファクトモデルである。
しかし、ビデオ認識のための2D CNNのストレートな拡張である3D CNNは、標準アクション認識ベンチマークでは同様の成功を収めていない。
この3d cnnの性能低下の主な理由の1つは、大規模な注釈付きデータセットを大規模に訓練する必要のある計算量の増加である。
3dカーネル因子化アプローチは、3d cnnの複雑さを減らすために提案されている。
既存のカーネルファクタライゼーションアプローチは、ハンドデザインとハードワイヤ技術に従っている。
本稿では、時空間分解における相互作用を制御し、時間を通して特徴を適応的にルーティングし、データ依存的に組み合わせる新しい時空間特徴抽出モジュールであるGSFを提案する。
gsfは群空間ゲーティングを利用して入力テンソルとチャネル重み付けを分解し、分解テンソルを融合させる。
GSFは既存の2D CNNに挿入して、パラメータと計算オーバーヘッドを無視して、効率よく高性能な時空間特徴抽出器に変換することができる。
2d cnnファミリを用いてgsfを広範囲に解析し,5つの標準行動認識ベンチマークを用いて,最先端または競争性能を達成する。
コードとモデルはhttps://github.com/swathikirans/GSF.comで公開される。
関連論文リスト
- Maximizing Spatio-Temporal Entropy of Deep 3D CNNs for Efficient Video
Recognition [25.364148451584356]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識において一般的な選択肢である。
我々は,新しい学習自由なニューラルアーキテクチャ探索手法を用いて,効率的な3次元CNNアーキテクチャを自動設計することを提案する。
Something-Something V1&V2 と Kinetics400 の実験は、E3D ファミリーが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-03-05T15:11:53Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos [93.73198973454944]
連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。
Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。
本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:30:52Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Depthwise Spatio-Temporal STFT Convolutional Neural Networks for Human
Action Recognition [42.400429835080416]
従来の3D畳み込みニューラルネットワーク(CNN)は計算コストが高く、メモリ集約性があり、過度に適合する傾向がある。
本稿では,3次元CNNにおける3次元畳み込み層の代替として機能する新しい畳み込みブロックのクラスを提案する。
Some-something v1, v2, Jester, Diving Kinetics-400, UCF 101, HMDB 51を含む7つの行動認識データセットについて,STFTブロックをベースとした3D CNNが,現状と比較して同等以上の性能で達成可能であることを示す。
論文 参考訳(メタデータ) (2020-07-22T12:26:04Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - A Fast 3D CNN for Hyperspectral Image Classification [0.456877715768796]
ハイパースペクトルイメージング(HSI)は、多くの現実世界の用途に広く利用されている。
2次元畳み込みニューラルネットワーク(CNN)は、HSICがスペクトル空間情報の両方に大きく依存する、実行可能なアプローチである。
本研究は,空間スペクトル特徴写像を併用した3次元CNNモデルを提案する。
論文 参考訳(メタデータ) (2020-04-29T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。