論文の概要: Rethinking Motion Representation: Residual Frames with 3D ConvNets for
Better Action Recognition
- arxiv url: http://arxiv.org/abs/2001.05661v1
- Date: Thu, 16 Jan 2020 05:49:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 00:22:42.446580
- Title: Rethinking Motion Representation: Residual Frames with 3D ConvNets for
Better Action Recognition
- Title(参考訳): 動きの表現を再考する:3D ConvNet を用いた行動認識のための残像フレーム
- Authors: Li Tao, Xueting Wang, Toshihiko Yamasaki
- Abstract要約: 本稿では,3D ConvNet の入力データとして残差フレームを利用した動画から動画の特徴を高速かつ効果的に抽出する方法を提案する。
従来の積み重ねられたRGBフレームを残りのフレームに置き換えることで、トップ1の精度よりも20.5%と12.5%の改善が達成できる。
残余フレームはオブジェクトの外観に関する情報をほとんど含まないため、さらに2次元畳み込みネットワークを用いて外観特徴を抽出する。
- 参考スコア(独自算出の注目度): 43.002621928500425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, 3D convolutional networks yield good performance in action
recognition. However, optical flow stream is still needed to ensure better
performance, the cost of which is very high. In this paper, we propose a fast
but effective way to extract motion features from videos utilizing residual
frames as the input data in 3D ConvNets. By replacing traditional stacked RGB
frames with residual ones, 20.5% and 12.5% points improvements over top-1
accuracy can be achieved on the UCF101 and HMDB51 datasets when trained from
scratch. Because residual frames contain little information of object
appearance, we further use a 2D convolutional network to extract appearance
features and combine them with the results from residual frames to form a
two-path solution. In three benchmark datasets, our two-path solution achieved
better or comparable performances than those using additional optical flow
methods, especially outperformed the state-of-the-art models on Mini-kinetics
dataset. Further analysis indicates that better motion features can be
extracted using residual frames with 3D ConvNets, and our residual-frame-input
path is a good supplement for existing RGB-frame-input models.
- Abstract(参考訳): 近年,3次元畳み込みネットワークの動作認識性能が向上している。
しかし、性能向上のためにはまだ光学フローストリームが必要であり、そのコストは非常に高い。
本稿では,3D ConvNetの入力データとして残留フレームを利用する動画から,高速かつ効果的な動き特徴抽出手法を提案する。
従来の積み重ねられたRGBフレームを残留フレームに置き換えることで、UCF101データセットとHMDB51データセットでトップ1の精度よりも20.5%と12.5%の改善が達成される。
残差フレームは物体の出現に関する情報をほとんど含まないため、さらに2次元畳み込みネットワークを用いて外観特徴を抽出し、残差フレームの結果と組み合わせて2経路解を形成する。
3つのベンチマークデータセットにおいて、我々の2パスソリューションは、追加の光学フロー手法を使用したものよりも、より良いあるいは同等のパフォーマンスを達成した。
さらに解析した結果, 3次元コンベネットを用いた残差フレームを用いてより優れた動作特徴を抽出することができ, 既存のrgbフレーム入力モデルでは残差フレーム入力パスが適当であることがわかった。
関連論文リスト
- You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video
Recognition [84.697097472401]
Ada3Dは、インスタンス固有の3D利用ポリシーを学び、3Dネットワークで使用するフレームと畳み込み層を決定する条件付き計算フレームワークです。
本手法は,最先端の3dモデルと同様の精度を実現し,異なるデータセット間での計算量を20%-50%削減できることを実証する。
論文 参考訳(メタデータ) (2020-12-29T21:40:38Z) - Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:37:37Z) - Residual Frames with Efficient Pseudo-3D CNN for Human Action
Recognition [10.185425416255294]
そこで我々は,残余フレームを代替の「軽量」運動表現として用いることを提案する。
また、3D畳み込みを2Dと1D畳み込みに分離する新しい擬似3D畳み込みモジュールを開発した。
論文 参考訳(メタデータ) (2020-08-03T17:40:17Z) - Motion Representation Using Residual Frames with 3D CNN [43.002621928500425]
本稿では,3D ConvNet の入力データとして残差フレームを利用した動画から動画の特徴を高速かつ効果的に抽出する方法を提案する。
従来の積み重ねられたRGBフレームを残留フレームに置き換えることで、トップ1の精度よりも35.6%と26.6%の改善点が得られる。
論文 参考訳(メタデータ) (2020-06-21T07:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。