論文の概要: CTM: Collaborative Temporal Modeling for Action Recognition
- arxiv url: http://arxiv.org/abs/2002.03152v1
- Date: Sat, 8 Feb 2020 12:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:55:33.898213
- Title: CTM: Collaborative Temporal Modeling for Action Recognition
- Title(参考訳): ctm : 行動認識のための協調時間モデリング
- Authors: Qian Liu, Tao Wang, Jie Liu, Yang Guan, Qi Bu, Longfei Yang
- Abstract要約: 動作認識のための時間情報を学習するための協調時間モデリング(CTM)ブロックを提案する。
CTMには、空間認識時空間モデリングパスと空間認識時空間モデリングパスの2つの協調パスが含まれている。
いくつかの一般的なアクション認識データセットの実験では、CTMブロックが2D CNNベースラインのパフォーマンス改善をもたらすことが示されている。
- 参考スコア(独自算出の注目度): 11.467061749436356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of digital multimedia, video understanding has
become an important field. For action recognition, temporal dimension plays an
important role, and this is quite different from image recognition. In order to
learn powerful feature of videos, we propose a Collaborative Temporal Modeling
(CTM) block (Figure 1) to learn temporal information for action recognition.
Besides a parameter-free identity shortcut, as a separate temporal modeling
block, CTM includes two collaborative paths: a spatial-aware temporal modeling
path, which we propose the Temporal-Channel Convolution Module (TCCM) with
unshared parameters for each spatial position (H*W) to build, and a
spatial-unaware temporal modeling path. CTM blocks can seamlessly be inserted
into many popular networks to generate CTM Networks and bring the capability of
learning temporal information to 2D CNN backbone networks, which only capture
spatial information. Experiments on several popular action recognition datasets
demonstrate that CTM blocks bring the performance improvements on 2D CNN
baselines, and our method achieves the competitive results against the
state-of-the-art methods. Code will be made publicly available.
- Abstract(参考訳): デジタルマルチメディアの急速な発展に伴い、ビデオ理解は重要な分野となっている。
行動認識においては、時間次元が重要な役割を担い、画像認識とは全く異なる。
映像の強力な特徴を学習するために,行動認識のための時間情報を学ぶための協調時空間モデリングブロック(ctm)ブロック(図1)を提案する。
パラメータフリーなアイデンティティ・ショートカットに加えて、CTMは、時間的モデリングブロックとして、2つの協調経路を含む: 空間的認識時間的モデリングパス: 空間的位置 (H*W) ごとに非共有パラメータを持つ時空間チャネル・畳み込みモジュール (TCCM) と空間的認識時間的モデリングパス。
CTMブロックは、多くの人気のあるネットワークにシームレスに挿入してCTMネットワークを生成し、空間情報のみをキャプチャする2D CNNバックボーンネットワークに時間的情報を学習する機能を提供する。
いくつかの一般的なアクション認識データセットにおける実験により、ctmブロックが2d cnnベースラインのパフォーマンス向上をもたらすことが示され、本手法は最先端手法と競合する結果が得られる。
コードは公開される予定だ。
関連論文リスト
- Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Skeleton-based Action Recognition via Temporal-Channel Aggregation [5.620303498964992]
空間的・時間的トポロジを学習するために,TCA-CN(Temporal-Channel Aggregation Graph Conal Networks)を提案する。
さらに,マルチスケールの骨格時間モデリングを抽出し,注意機構を備えた事前骨格知識と融合する。
論文 参考訳(メタデータ) (2022-05-31T16:28:30Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Comparison of Spatiotemporal Networks for Learning Video Related Tasks [0.0]
シーケンスから学習する多くの方法は、個々のフレームから時間的に2D CNNの特徴を処理したり、高性能な2D CNNアーキテクチャ内で直接的に3D畳み込みを利用する。
この研究は、MNISTベースのビデオデータセットを構築し、一般的なビデオ関連タスクのファセット(分類、順序付け、速度推定)のパラメータを制御する。
このデータセットでトレーニングされたモデルは、タスクと2D畳み込み、3D畳み込み、または畳み込みLSTMの使用によって、重要な方法で異なることが示されている。
論文 参考訳(メタデータ) (2020-09-15T19:57:50Z) - STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。
このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。
STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文 参考訳(メタデータ) (2020-03-18T04:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。