論文の概要: Motion Representation Using Residual Frames with 3D CNN
- arxiv url: http://arxiv.org/abs/2006.13017v1
- Date: Sun, 21 Jun 2020 07:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 12:23:12.036665
- Title: Motion Representation Using Residual Frames with 3D CNN
- Title(参考訳): 3次元CNNを用いた残差フレームを用いた動き表現
- Authors: Li Tao, Xueting Wang, Toshihiko Yamasaki
- Abstract要約: 本稿では,3D ConvNet の入力データとして残差フレームを利用した動画から動画の特徴を高速かつ効果的に抽出する方法を提案する。
従来の積み重ねられたRGBフレームを残留フレームに置き換えることで、トップ1の精度よりも35.6%と26.6%の改善点が得られる。
- 参考スコア(独自算出の注目度): 43.002621928500425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, 3D convolutional networks (3D ConvNets) yield good performance in
action recognition. However, optical flow stream is still needed to ensure
better performance, the cost of which is very high. In this paper, we propose a
fast but effective way to extract motion features from videos utilizing
residual frames as the input data in 3D ConvNets. By replacing traditional
stacked RGB frames with residual ones, 35.6% and 26.6% points improvements over
top-1 accuracy can be obtained on the UCF101 and HMDB51 datasets when ResNet-18
models are trained from scratch. And we achieved the state-of-the-art results
in this training mode. Analysis shows that better motion features can be
extracted using residual frames compared to RGB counterpart. By combining with
a simple appearance path, our proposal can be even better than some methods
using optical flow streams.
- Abstract(参考訳): 近年,3次元畳み込みネットワーク(3D ConvNets)の動作認識性能が向上している。
しかし、性能向上のためにはまだ光学フローストリームが必要であり、そのコストは非常に高い。
本稿では,3D ConvNetの入力データとして残留フレームを利用する動画から,高速かつ効果的な動き特徴抽出手法を提案する。
従来のスタックされたrgbフレームを残りのフレームに置き換えることで、resnet-18モデルをスクラッチからトレーニングすると、トップ1の精度よりも35.6%と26.6%改善できる。
そして、このトレーニングモードで最先端の結果を達成しました。
分析の結果,RGBと比較すると,残差フレームを用いて良好な運動特徴を抽出できることがわかった。
簡単な外観パスと組み合わせることで,オプティカルフローストリームを用いた手法よりも優れた手法を提案する。
関連論文リスト
- Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Neural Residual Flow Fields for Efficient Video Representations [5.904082461511478]
入射神経表現(INR)は、画像、ビデオ、3D形状などの信号を表現するための強力なパラダイムとして登場した。
本稿では,データ冗長性を明示的に取り除き,ビデオの表現と圧縮を行う新しいINR手法を提案する。
本稿では,提案手法がベースライン法よりも有意差で優れていることを示す。
論文 参考訳(メタデータ) (2022-01-12T06:22:09Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - Challenge report:VIPriors Action Recognition Challenge [14.080142383692417]
アクション認識は完全な応用のために多くの研究者を惹きつけてきたが、それでも挑戦的だ。
本稿では,従来の手法について検討し,提案手法を提案する。
残差フレームを入力としてビデオから動画の特徴を抽出するために,高速だが効果的な手法を用いる。
論文 参考訳(メタデータ) (2020-07-16T08:40:31Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Rethinking Motion Representation: Residual Frames with 3D ConvNets for
Better Action Recognition [43.002621928500425]
本稿では,3D ConvNet の入力データとして残差フレームを利用した動画から動画の特徴を高速かつ効果的に抽出する方法を提案する。
従来の積み重ねられたRGBフレームを残りのフレームに置き換えることで、トップ1の精度よりも20.5%と12.5%の改善が達成できる。
残余フレームはオブジェクトの外観に関する情報をほとんど含まないため、さらに2次元畳み込みネットワークを用いて外観特徴を抽出する。
論文 参考訳(メタデータ) (2020-01-16T05:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。