論文の概要: MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection
- arxiv url: http://arxiv.org/abs/2112.03902v1
- Date: Tue, 7 Dec 2021 18:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 14:41:43.711389
- Title: MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection
- Title(参考訳): MS-TCT:動作検出のためのマルチスケールテンポラルコンバータ
- Authors: Rui Dai, Srijan Das, Kumara Kahatapitiya, Michael S. Ryoo, Francois
Bremond
- Abstract要約: アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。
本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。
我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 37.25262046781015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action detection is an essential and challenging task, especially for densely
labelled datasets of untrimmed videos. The temporal relation is complex in
those datasets, including challenges like composite action, and co-occurring
action. For detecting actions in those complex videos, efficiently capturing
both short-term and long-term temporal information in the video is critical. To
this end, we propose a novel ConvTransformer network for action detection. This
network comprises three main components: (1) Temporal Encoder module
extensively explores global and local temporal relations at multiple temporal
resolutions. (2) Temporal Scale Mixer module effectively fuses the multi-scale
features to have a unified feature representation. (3) Classification module is
used to learn the instance center-relative position and predict the frame-level
classification scores. The extensive experiments on multiple datasets,
including Charades, TSU and MultiTHUMOS, confirm the effectiveness of our
proposed method. Our network outperforms the state-of-the-art methods on all
three datasets.
- Abstract(参考訳): アクション検出は、特に未トリミングビデオの密にラベル付けされたデータセットにおいて、必須かつ困難なタスクである。
これらのデータセットには、複合アクションや共起アクションといった課題を含む時間的関係が複雑である。
複雑な映像中の動作を検出するためには,映像中の短期的情報と長期的情報の両方を効率的に捉えることが重要である。
そこで本稿では,行動検出のためのconvtransformerネットワークを提案する。
1) 時間エンコーダモジュールは、複数の時間分解能で大域的および局所的な時間的関係を広範囲に探索する。
2) 時間スケールミキサモジュールは,マルチスケール機能を効果的に融合して,機能表現を統一する。
(3)分類モジュールは、インスタンス中心関係位置を学習し、フレームレベルの分類スコアを予測するために使用される。
Charades, TSU, MultiTHUMOSを含む複数のデータセットに対する広範な実験により, 提案手法の有効性が確認された。
我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
関連論文リスト
- PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - SWTF: Sparse Weighted Temporal Fusion for Drone-Based Activity
Recognition [2.7677069267434873]
ドローンカメラによる人間活動認識(HAR)はコンピュータビジョン研究コミュニティから大きな注目を集めている。
本稿では,スパース標本化ビデオフレームを利用する新しいSparse Weighted Temporal Fusion (SWTF) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-11-10T12:45:43Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - CTRN: Class-Temporal Relational Network for Action Detection [7.616556723260849]
エンドツーエンドネットワーク:CTRN(Class-Temporal Network)を導入する。
CTRNには、Transform Representation Module、Class-Temporal Module、G-classifierの3つの重要なコンポーネントが含まれている。
CTRを3つの高密度ラベル付きデータセット上で評価し、最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-26T08:15:47Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Multi-Level Temporal Pyramid Network for Action Detection [47.223376232616424]
特徴の識別を改善するために,MN(Multi-Level Temporal Network)を提案する。
これにより、提案したMNは、異なる期間の異なるアクションインスタンスに対して、リッチで差別的な特徴を学習することができる。
THUMOS'14 と Activitynet v1.3 の2つの挑戦的データセット上で MN を評価し,実験結果から MN が Activitynet v1.3 上での競争性能を示し,THUMOS'14 の最先端アプローチを著しく上回る結果となった。
論文 参考訳(メタデータ) (2020-08-07T17:08:24Z) - Segment as Points for Efficient Online Multi-Object Tracking and
Segmentation [66.03023110058464]
本稿では,コンパクトな画像表現を非秩序な2次元点クラウド表現に変換することで,セグメントに基づくインスタンス埋め込みの学習に有効な方法を提案する。
本手法は,画像ではなく,ランダムに選択された点から識別インスタンスの埋め込みを学習する,新たなトラッキング・バイ・ポイントのパラダイムを生成する。
PointTrackという名前のオンラインMOTSフレームワークは、最先端のすべてのメソッドを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-07-03T08:29:35Z) - Temporal Pyramid Network for Action Recognition [129.12076009042622]
本稿では,2次元あるいは3次元のバックボーンネットワークに柔軟に統合可能な汎用時間ピラミッドネットワーク(TPN)を提案する。
TPNは、いくつかのアクション認識データセット上で、他の困難なベースラインよりも一貫して改善されている。
論文 参考訳(メタデータ) (2020-04-07T17:17:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。