論文の概要: Directional Temporal Modeling for Action Recognition
- arxiv url: http://arxiv.org/abs/2007.11040v1
- Date: Tue, 21 Jul 2020 18:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 05:15:13.843143
- Title: Directional Temporal Modeling for Action Recognition
- Title(参考訳): 行動認識のための方向時間モデル
- Authors: Xinyu Li, Bing Shuai, Joseph Tighe
- Abstract要約: 本稿では,局所的特徴間の時間的進化をモデル化するチャネル独立指向性畳み込み(CIDC)操作を提案する。
当社のCIDCネットワークは,任意のアクティビティ認識バックボーンネットワークにアタッチ可能である。
- 参考スコア(独自算出の注目度): 24.805397801876687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many current activity recognition models use 3D convolutional neural networks
(e.g. I3D, I3D-NL) to generate local spatial-temporal features. However, such
features do not encode clip-level ordered temporal information. In this paper,
we introduce a channel independent directional convolution (CIDC) operation,
which learns to model the temporal evolution among local features. By applying
multiple CIDC units we construct a light-weight network that models the
clip-level temporal evolution across multiple spatial scales. Our CIDC network
can be attached to any activity recognition backbone network. We evaluate our
method on four popular activity recognition datasets and consistently improve
upon state-of-the-art techniques. We further visualize the activation map of
our CIDC network and show that it is able to focus on more meaningful, action
related parts of the frame.
- Abstract(参考訳): 現在の活動認識モデルの多くは3次元畳み込みニューラルネットワーク(i3d、i3d-nlなど)を使用して局所的な空間-時間的特徴を生成する。
しかし、そのような機能はクリップレベルの順序付けられた時間情報をエンコードしない。
本稿では,局所的特徴間の時間的進化をモデル化するチャネル独立指向性畳み込み(CIDC)操作を提案する。
複数のCIDCユニットを適用することで、複数の空間スケールにわたるクリップレベルの時間的進化をモデル化する軽量ネットワークを構築する。
当社のCIDCネットワークは,任意のアクティビティ認識バックボーンネットワークにアタッチ可能である。
提案手法は,4つの一般的なアクティビティ認識データセット上で評価し,最新技術により一貫して改善する。
さらに、CIDCネットワークの活性化マップを可視化し、フレームのより意味のあるアクション関連部分にフォーカスできることを示します。
関連論文リスト
- SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Blockwise Temporal-Spatial Pathway Network [0.2538209532048866]
ブロックワイド時空間経路ネットワーク(BTSNet)と呼ばれる3次元CNNに基づく行動認識モデルを提案する。
画像認識のための空間受容場を適応的に選択する適応型カーネル選択モデルに着想を得た新しいモデルを構築した。
評価のために提案したモデルを,UCF-101,HMDB-51,SVW,EpicKitchenデータセットで検証した。
論文 参考訳(メタデータ) (2022-08-05T08:43:30Z) - 3D Convolutional with Attention for Action Recognition [6.238518976312625]
現在の行動認識法は、計算コストの高いモデルを用いて行動の時間的依存を学習する。
本稿では,3次元畳み込み層,完全連結層,注目層からなる依存関係を学習するためのディープニューラルネットワークアーキテクチャを提案する。
提案手法はまず3D-CNNを用いて行動の空間的特徴と時間的特徴を学習し,その後,注意時間機構によってモデルが本質的な特徴に注意を向けることを支援する。
論文 参考訳(メタデータ) (2022-06-05T15:12:57Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Anchor-Based Spatial-Temporal Attention Convolutional Networks for
Dynamic 3D Point Cloud Sequences [20.697745449159097]
動的3次元点雲列を処理するために,アンカー型時空間注意畳み込み演算(astaconv)を提案する。
提案する畳み込み操作は、各点の周囲に複数の仮想アンカーを設定することにより、各点の周囲にレギュラーレセプティブフィールドを構築する。
提案手法は,局所領域内の構造化情報をよりよく活用し,動的3次元点雲列から空間-時間埋め込み特徴を学習する。
論文 参考訳(メタデータ) (2020-12-20T07:35:37Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Interpreting video features: a comparison of 3D convolutional networks
and convolutional LSTM networks [1.462434043267217]
我々は3次元畳み込みネットワークと畳み込みLSTMネットワークが時間依存のフレーム間でどのように特徴を学習するかを比較する。
以上の結果から,3次元畳み込みモデルは入力シーケンス内の短い事象に集中し,空間的焦点を少ない連続した領域に配置することが示唆された。
論文 参考訳(メタデータ) (2020-02-02T11:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。