論文の概要: Temporal Pyramid Network for Action Recognition
- arxiv url: http://arxiv.org/abs/2004.03548v2
- Date: Mon, 15 Jun 2020 02:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 00:23:58.010888
- Title: Temporal Pyramid Network for Action Recognition
- Title(参考訳): 行動認識のための時間ピラミッドネットワーク
- Authors: Ceyuan Yang, Yinghao Xu, Jianping Shi, Bo Dai, Bolei Zhou
- Abstract要約: 本稿では,2次元あるいは3次元のバックボーンネットワークに柔軟に統合可能な汎用時間ピラミッドネットワーク(TPN)を提案する。
TPNは、いくつかのアクション認識データセット上で、他の困難なベースラインよりも一貫して改善されている。
- 参考スコア(独自算出の注目度): 129.12076009042622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual tempo characterizes the dynamics and the temporal scale of an action.
Modeling such visual tempos of different actions facilitates their recognition.
Previous works often capture the visual tempo through sampling raw videos at
multiple rates and constructing an input-level frame pyramid, which usually
requires a costly multi-branch network to handle. In this work we propose a
generic Temporal Pyramid Network (TPN) at the feature-level, which can be
flexibly integrated into 2D or 3D backbone networks in a plug-and-play manner.
Two essential components of TPN, the source of features and the fusion of
features, form a feature hierarchy for the backbone so that it can capture
action instances at various tempos. TPN also shows consistent improvements over
other challenging baselines on several action recognition datasets.
Specifically, when equipped with TPN, the 3D ResNet-50 with dense sampling
obtains a 2% gain on the validation set of Kinetics-400. A further analysis
also reveals that TPN gains most of its improvements on action classes that
have large variances in their visual tempos, validating the effectiveness of
TPN.
- Abstract(参考訳): 視覚的テンポは行動のダイナミクスと時間スケールを特徴づける。
異なる行動のこのような視覚的テンポをモデル化することは、その認識を促進する。
以前の作業では、複数のレートで生のビデオをサンプリングし、入力レベルのフレームピラミッドを構築することで、視覚的なテンポをキャプチャすることが多い。
本研究では,2次元あるいは3次元のバックボーンネットワークに柔軟に統合可能な汎用時間ピラミッドネットワーク(TPN)を,プラグアンドプレイ方式で提案する。
TPNの2つの重要なコンポーネント、機能のソースと機能の融合は、バックボーンの機能階層を形成し、さまざまなテンポでのアクションインスタンスのキャプチャを可能にする。
TPNはまた、いくつかのアクション認識データセット上での他の課題ベースラインよりも一貫した改善を示している。
具体的には、TPNを装着すると、高密度サンプリングによる3D ResNet-50は、Kinetics-400の検証セットに対して2%のゲインを得る。
さらなる分析により、TPNは視覚的テンポに大きなばらつきを持つアクションクラスにおいて、ほとんどの改善が得られ、TPNの有効性が検証された。
関連論文リスト
- FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - SWTF: Sparse Weighted Temporal Fusion for Drone-Based Activity
Recognition [2.7677069267434873]
ドローンカメラによる人間活動認識(HAR)はコンピュータビジョン研究コミュニティから大きな注目を集めている。
本稿では,スパース標本化ビデオフレームを利用する新しいSparse Weighted Temporal Fusion (SWTF) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-11-10T12:45:43Z) - Multi-scale temporal network for continuous sign language recognition [10.920363368754721]
連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。
本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2022-04-08T06:14:22Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection [37.25262046781015]
アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。
本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。
我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-12-07T18:57:37Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Multi-Level Temporal Pyramid Network for Action Detection [47.223376232616424]
特徴の識別を改善するために,MN(Multi-Level Temporal Network)を提案する。
これにより、提案したMNは、異なる期間の異なるアクションインスタンスに対して、リッチで差別的な特徴を学習することができる。
THUMOS'14 と Activitynet v1.3 の2つの挑戦的データセット上で MN を評価し,実験結果から MN が Activitynet v1.3 上での競争性能を示し,THUMOS'14 の最先端アプローチを著しく上回る結果となった。
論文 参考訳(メタデータ) (2020-08-07T17:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。