論文の概要: A Real-time Action Representation with Temporal Encoding and Deep
Compression
- arxiv url: http://arxiv.org/abs/2006.09675v1
- Date: Wed, 17 Jun 2020 06:30:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 21:03:58.141293
- Title: A Real-time Action Representation with Temporal Encoding and Deep
Compression
- Title(参考訳): 時間符号化と深部圧縮によるリアルタイム行動表現
- Authors: Kun Liu, Wu Liu, Huadong Ma, Mingkui Tan, Chuang Gan
- Abstract要約: 動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
- 参考スコア(独自算出の注目度): 115.3739774920845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have achieved remarkable success for video-based action
recognition. However, most of existing approaches cannot be deployed in
practice due to the high computational cost. To address this challenge, we
propose a new real-time convolutional architecture, called Temporal
Convolutional 3D Network (T-C3D), for action representation. T-C3D learns video
action representations in a hierarchical multi-granularity manner while
obtaining a high process speed. Specifically, we propose a residual 3D
Convolutional Neural Network (CNN) to capture complementary information on the
appearance of a single frame and the motion between consecutive frames. Based
on this CNN, we develop a new temporal encoding method to explore the temporal
dynamics of the whole video. Furthermore, we integrate deep compression
techniques with T-C3D to further accelerate the deployment of models via
reducing the size of the model. By these means, heavy calculations can be
avoided when doing the inference, which enables the method to deal with videos
beyond real-time speed while keeping promising performance. Our method achieves
clear improvements on UCF101 action recognition benchmark against
state-of-the-art real-time methods by 5.4% in terms of accuracy and 2 times
faster in terms of inference speed with a less than 5MB storage model. We
validate our approach by studying its action representation performance on four
different benchmarks over three different tasks. Extensive experiments
demonstrate comparable recognition performance to the state-of-the-art methods.
The source code and the pre-trained models are publicly available at
https://github.com/tc3d.
- Abstract(参考訳): ディープニューラルネットワークは、ビデオベースのアクション認識で目覚ましい成功を収めている。
しかし、計算コストが高いため、既存のアプローチのほとんどは実際に展開することはできない。
そこで本稿では,リアルタイム畳み込みアーキテクチャであるtemporal convolutional 3d network (t-c3d)を提案する。
t-c3dは、高いプロセス速度を得ながら、階層的なマルチグラニュラ性でビデオアクション表現を学習する。
具体的には、単一フレームの出現と連続フレーム間の動きに関する補足情報をキャプチャする残差3次元畳み込みニューラルネットワーク(cnn)を提案する。
このCNNに基づいて、ビデオ全体の時間的ダイナミクスを探索する新しい時間的エンコーディング手法を開発した。
さらに,T-C3Dと深部圧縮技術を統合し,モデルのサイズを小さくすることでモデルの展開をさらに加速する。
このような方法では、推論を行う際に重い計算を回避できるため、有望なパフォーマンスを維持しながら、リアルタイム速度以上のビデオを扱うことができる。
本手法は,最先端リアルタイム手法に対するutf101動作認識ベンチマークの精度5.4%,5mb以下のストレージモデルでの推論速度2倍の精度向上を実現している。
我々は,その動作表現性能を4つの異なるベンチマークで3つのタスクで検証することで,そのアプローチを検証する。
広範な実験により、最先端の手法と同等の認識性能を示す。
ソースコードと事前訓練されたモデルはhttps://github.com/tc3d.comで公開されている。
関連論文リスト
- RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - F4D: Factorized 4D Convolutional Neural Network for Efficient
Video-level Representation Learning [4.123763595394021]
既存の3D畳み込みニューラルネットワーク(CNN)ベースのビデオレベルの表現学習方法は、クリップベースである。
本稿では,より効果的で細かな時間的映像表現を学習できる,注意力のある分解型4D CNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-28T19:21:57Z) - SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network [1.4732811715354455]
SpATr(Spiral Auto-Encoder and Transformer Network)と呼ばれる3次元動作認識のための新しいアプローチを提案する。
スパイラル畳み込みに基づく軽量オートエンコーダを用いて,各3次元メッシュから空間幾何学的特徴を抽出する。
提案手法は,Babel,MoVi,BMLrubの3つの顕著な3次元行動データセットを用いて評価した。
論文 参考訳(メタデータ) (2023-06-30T11:49:00Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - In Defense of Image Pre-Training for Spatiotemporal Recognition [32.56468478601864]
画像事前学習を効果的に活用する鍵は、空間的特徴と時間的特徴の学習の分解にある。
新しいパイプラインは、大きなスピードアップを伴うビデオ認識において、常により良い結果を達成する。
論文 参考訳(メタデータ) (2022-05-03T18:45:44Z) - Learning from Temporal Gradient for Semi-supervised Action Recognition [15.45239134477737]
より注意的な特徴抽出のための追加のモダリティとして時間勾配を導入する。
提案手法は,3つのビデオ行動認識ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-25T20:30:30Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition [84.697097472401]
Ada3Dは、インスタンス固有の3D利用ポリシーを学び、3Dネットワークで使用するフレームと畳み込み層を決定する条件付き計算フレームワークです。
本手法は,最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%-50%削減できることを実証する。
論文 参考訳(メタデータ) (2020-12-29T21:40:38Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z) - An Information-rich Sampling Technique over Spatio-Temporal CNN for
Classification of Human Actions in Videos [5.414308305392762]
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)を用いたビデオにおける人間の行動認識手法を提案する。
本稿では,3次元CNNアーキテクチャを用いて特徴量抽出を行い,人間の行動を認識するためのLong Short-Term Memory (LSTM) について述べる。
KTHとWEIZMANNの人間の行動データセットを用いて実験を行い、最先端技術と同等の結果が得られることを示した。
論文 参考訳(メタデータ) (2020-02-06T05:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。