論文の概要: Residual Frames with Efficient Pseudo-3D CNN for Human Action
Recognition
- arxiv url: http://arxiv.org/abs/2008.01057v1
- Date: Mon, 3 Aug 2020 17:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:40:12.875513
- Title: Residual Frames with Efficient Pseudo-3D CNN for Human Action
Recognition
- Title(参考訳): 擬似3次元CNNを用いた人間の行動認識のための残留フレーム
- Authors: Jiawei Chen, Jenson Hsiao, Chiu Man Ho
- Abstract要約: そこで我々は,残余フレームを代替の「軽量」運動表現として用いることを提案する。
また、3D畳み込みを2Dと1D畳み込みに分離する新しい擬似3D畳み込みモジュールを開発した。
- 参考スコア(独自算出の注目度): 10.185425416255294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human action recognition is regarded as a key cornerstone in domains such as
surveillance or video understanding. Despite recent progress in the development
of end-to-end solutions for video-based action recognition, achieving
state-of-the-art performance still requires using auxiliary hand-crafted motion
representations, e.g., optical flow, which are usually computationally
demanding. In this work, we propose to use residual frames (i.e., differences
between adjacent RGB frames) as an alternative "lightweight" motion
representation, which carries salient motion information and is computationally
efficient. In addition, we develop a new pseudo-3D convolution module which
decouples 3D convolution into 2D and 1D convolution. The proposed module
exploits residual information in the feature space to better structure motions,
and is equipped with a self-attention mechanism that assists to recalibrate the
appearance and motion features. Empirical results confirm the efficiency and
effectiveness of residual frames as well as the proposed pseudo-3D convolution
module.
- Abstract(参考訳): 人間の行動認識は、監視やビデオ理解といった領域における重要な基盤と見なされている。
映像に基づく動作認識のためのエンドツーエンドソリューションの開発は近年進展しているが、最先端のパフォーマンスを達成するには補助的な手作りのモーション表現(例えば光学フロー)が必要である。
本研究では,残余フレーム(すなわち隣接するRGBフレームの違い)を,有能な動作情報を持ち,計算効率のよい「軽量」な動作表現として用いることを提案する。
さらに, 3次元畳み込みを2次元および1次元畳み込みに分解する疑似3次元畳み込みモジュールを開発した。
提案するモジュールは,特徴空間の残余情報を活用して動作を構造化し,外観と動作の特徴の調整を支援するセルフアテンション機構を備える。
実験により,提案する疑似3次元畳み込みモジュールと同様に,残余フレームの効率と有効性を確認した。
関連論文リスト
- Exploring Vision Transformers for 3D Human Motion-Language Models with Motion Patches [12.221087476416056]
動き系列の新しい表現である「動きパッチ」を導入し、移動学習を通して視覚変換器(ViT)をモーションエンコーダとして用いることを提案する。
これらの動きパッチは、運動配列に基づく骨格関節の分割と分類によって作成され、様々な骨格構造に対して堅牢である。
2次元画像データを用いたトレーニングにより得られたViTの事前学習による伝達学習により,動作解析の性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-05-08T02:42:27Z) - Motion-aware 3D Gaussian Splatting for Efficient Dynamic Scene Reconstruction [89.53963284958037]
動的シーン再構築のための新しい動き認識拡張フレームワークを提案する。
具体的には,まず3次元ガウス運動と画素レベルの流れの対応性を確立する。
より厳密な最適化問題を示す先行的な変形に基づくパラダイムに対して,過渡対応変形補助モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-18T03:46:26Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Motion-aware Dynamic Graph Neural Network for Video Compressive Sensing [14.67994875448175]
ビデオスナップショットイメージング(SCI)は、2D検出器を使用してシーケンシャルなビデオフレームをキャプチャし、それらを1つの測定値に圧縮する。
既存の再建手法の多くは、長距離空間および時間的依存関係を効率的に捉えることができない。
グラフニューラルネットワーク(GNN)に基づくフレキシブルでロバストなアプローチを提案し,距離に関わらず,空間と時間における画素間の非局所的相互作用を効率的にモデル化する。
論文 参考訳(メタデータ) (2022-03-01T12:13:46Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z) - Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred
Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。
提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-29T11:25:14Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。