論文の概要: Residual Frames with Efficient Pseudo-3D CNN for Human Action
Recognition
- arxiv url: http://arxiv.org/abs/2008.01057v1
- Date: Mon, 3 Aug 2020 17:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:40:12.875513
- Title: Residual Frames with Efficient Pseudo-3D CNN for Human Action
Recognition
- Title(参考訳): 擬似3次元CNNを用いた人間の行動認識のための残留フレーム
- Authors: Jiawei Chen, Jenson Hsiao, Chiu Man Ho
- Abstract要約: そこで我々は,残余フレームを代替の「軽量」運動表現として用いることを提案する。
また、3D畳み込みを2Dと1D畳み込みに分離する新しい擬似3D畳み込みモジュールを開発した。
- 参考スコア(独自算出の注目度): 10.185425416255294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human action recognition is regarded as a key cornerstone in domains such as
surveillance or video understanding. Despite recent progress in the development
of end-to-end solutions for video-based action recognition, achieving
state-of-the-art performance still requires using auxiliary hand-crafted motion
representations, e.g., optical flow, which are usually computationally
demanding. In this work, we propose to use residual frames (i.e., differences
between adjacent RGB frames) as an alternative "lightweight" motion
representation, which carries salient motion information and is computationally
efficient. In addition, we develop a new pseudo-3D convolution module which
decouples 3D convolution into 2D and 1D convolution. The proposed module
exploits residual information in the feature space to better structure motions,
and is equipped with a self-attention mechanism that assists to recalibrate the
appearance and motion features. Empirical results confirm the efficiency and
effectiveness of residual frames as well as the proposed pseudo-3D convolution
module.
- Abstract(参考訳): 人間の行動認識は、監視やビデオ理解といった領域における重要な基盤と見なされている。
映像に基づく動作認識のためのエンドツーエンドソリューションの開発は近年進展しているが、最先端のパフォーマンスを達成するには補助的な手作りのモーション表現(例えば光学フロー)が必要である。
本研究では,残余フレーム(すなわち隣接するRGBフレームの違い)を,有能な動作情報を持ち,計算効率のよい「軽量」な動作表現として用いることを提案する。
さらに, 3次元畳み込みを2次元および1次元畳み込みに分解する疑似3次元畳み込みモジュールを開発した。
提案するモジュールは,特徴空間の残余情報を活用して動作を構造化し,外観と動作の特徴の調整を支援するセルフアテンション機構を備える。
実験により,提案する疑似3次元畳み込みモジュールと同様に,残余フレームの効率と有効性を確認した。
関連論文リスト
- Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Motion-aware Dynamic Graph Neural Network for Video Compressive Sensing [17.441522549583805]
ビデオスナップショットイメージング(SCI)は、2D検出器を使用してシーケンシャルなビデオフレームをキャプチャし、それらを1つの測定値に圧縮する。
既存の再建手法の多くは、長期の空間的および時間的依存関係をキャプチャできない。
本稿では,空間内の画素間の非局所的相互作用を効率的にモデル化するための,グラフニューラルネットワーク(GNN)に基づくフレキシブルでロバストなアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-01T12:13:46Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z) - Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred
Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。
提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-29T11:25:14Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Motion Guided 3D Pose Estimation from Videos [81.14443206968444]
本研究では,2次元ポーズから1次元の人物ポーズ推定を行う問題に対して,運動損失と呼ばれる新たな損失関数を提案する。
運動損失の計算では、ペアワイズ・モーション・エンコーディング(ペアワイズ・モーション・エンコーディング)と呼ばれる単純なキーポイント・モーションの表現が導入された。
UGCN(U-shaped GCN)と呼ばれる新しいグラフ畳み込みネットワークアーキテクチャを設計し,短期および長期の動作情報の両方をキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T06:59:30Z) - Rethinking Motion Representation: Residual Frames with 3D ConvNets for
Better Action Recognition [43.002621928500425]
本稿では,3D ConvNet の入力データとして残差フレームを利用した動画から動画の特徴を高速かつ効果的に抽出する方法を提案する。
従来の積み重ねられたRGBフレームを残りのフレームに置き換えることで、トップ1の精度よりも20.5%と12.5%の改善が達成できる。
残余フレームはオブジェクトの外観に関する情報をほとんど含まないため、さらに2次元畳み込みネットワークを用いて外観特徴を抽出する。
論文 参考訳(メタデータ) (2020-01-16T05:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。