論文の概要: Multi-Level Temporal Pyramid Network for Action Detection
- arxiv url: http://arxiv.org/abs/2008.03270v1
- Date: Fri, 7 Aug 2020 17:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 01:39:47.484217
- Title: Multi-Level Temporal Pyramid Network for Action Detection
- Title(参考訳): アクション検出のためのマルチレベル時間ピラミッドネットワーク
- Authors: Xiang Wang, Changxin Gao, Shiwei Zhang, and Nong Sang
- Abstract要約: 特徴の識別を改善するために,MN(Multi-Level Temporal Network)を提案する。
これにより、提案したMNは、異なる期間の異なるアクションインスタンスに対して、リッチで差別的な特徴を学習することができる。
THUMOS'14 と Activitynet v1.3 の2つの挑戦的データセット上で MN を評価し,実験結果から MN が Activitynet v1.3 上での競争性能を示し,THUMOS'14 の最先端アプローチを著しく上回る結果となった。
- 参考スコア(独自算出の注目度): 47.223376232616424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, one-stage frameworks have been widely applied for temporal action
detection, but they still suffer from the challenge that the action instances
span a wide range of time. The reason is that these one-stage detectors, e.g.,
Single Shot Multi-Box Detector (SSD), extract temporal features only applying a
single-level layer for each head, which is not discriminative enough to perform
classification and regression. In this paper, we propose a Multi-Level Temporal
Pyramid Network (MLTPN) to improve the discrimination of the features.
Specially, we first fuse the features from multiple layers with different
temporal resolutions, to encode multi-layer temporal information. We then apply
a multi-level feature pyramid architecture on the features to enhance their
discriminative abilities. Finally, we design a simple yet effective feature
fusion module to fuse the multi-level multi-scale features. By this means, the
proposed MLTPN can learn rich and discriminative features for different action
instances with different durations. We evaluate MLTPN on two challenging
datasets: THUMOS'14 and Activitynet v1.3, and the experimental results show
that MLTPN obtains competitive performance on Activitynet v1.3 and outperforms
the state-of-the-art approaches on THUMOS'14 significantly.
- Abstract(参考訳): 現在、ワンステージフレームワークは時間的アクション検出に広く適用されているが、アクションインスタンスが広範囲にわたるという課題に悩まされている。
その理由として、例えばシングルショットマルチボックス検出器(SSD)のような一段検出装置は、各頭部に単一レベル層のみを適用した時間的特徴を抽出するが、分類と回帰を行うのに十分な識別性がないためである。
本稿では,特徴の識別を改善するため,マルチレベル時間ピラミッドネットワーク(MLTPN)を提案する。
特に,時間分解能の異なる複数の層から特徴を融合させ,多層時間情報を符号化する。
次に、特徴にマルチレベル機能ピラミッドアーキテクチャを適用し、その識別能力を高めます。
最後に,マルチレベルのマルチスケール機能を融合するシンプルな機能融合モジュールを設計する。
これにより、提案したMLTPNは、異なる期間の異なるアクションインスタンスに対して、リッチで差別的な特徴を学習することができる。
thumos'14 と activitynet v1.3 の2つの難解なデータセットで mltpn を評価し,実験結果から,mltpn が activitynet v1.3 の競合性能を獲得し,thums'14 の最先端のアプローチを著しく上回った。
関連論文リスト
- FoRA: Low-Rank Adaptation Model beyond Multimodal Siamese Network [19.466279425330857]
そこで我々は,LMA(Low-rank Modal Adaptors)と呼ばれる新しいマルチモーダル物体検出器を提案する。
作業は2024年4月にACM MMに提出されたが拒否された。
論文 参考訳(メタデータ) (2024-07-23T02:27:52Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - Multi-scale temporal network for continuous sign language recognition [10.920363368754721]
連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。
本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2022-04-08T06:14:22Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection [37.25262046781015]
アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。
本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。
我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-12-07T18:57:37Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Temporal Pyramid Network for Action Recognition [129.12076009042622]
本稿では,2次元あるいは3次元のバックボーンネットワークに柔軟に統合可能な汎用時間ピラミッドネットワーク(TPN)を提案する。
TPNは、いくつかのアクション認識データセット上で、他の困難なベースラインよりも一貫して改善されている。
論文 参考訳(メタデータ) (2020-04-07T17:17:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。