論文の概要: DyFADet: Dynamic Feature Aggregation for Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2407.03197v1
- Date: Wed, 3 Jul 2024 15:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 13:37:05.926092
- Title: DyFADet: Dynamic Feature Aggregation for Temporal Action Detection
- Title(参考訳): DyFADet: 時間的行動検出のための動的特徴集約
- Authors: Le Yang, Ziwei Zheng, Yizeng Han, Hao Cheng, Shiji Song, Gao Huang, Fan Li,
- Abstract要約: カーネル重みと受容フィールドを異なるタイムスタンプで適応できる新しい動的特徴集約(DFA)モジュールを構築した。
DFAを使用することで動的DADヘッド(DyHead)の開発を支援し、パラメータを調整したマルチスケール機能を適応的に集約する。
新しい動的TADモデルであるDyFADetは、一連の挑戦的なTADベンチマークで有望なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 70.37707797523723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent proposed neural network-based Temporal Action Detection (TAD) models are inherently limited to extracting the discriminative representations and modeling action instances with various lengths from complex scenes by shared-weights detection heads. Inspired by the successes in dynamic neural networks, in this paper, we build a novel dynamic feature aggregation (DFA) module that can simultaneously adapt kernel weights and receptive fields at different timestamps. Based on DFA, the proposed dynamic encoder layer aggregates the temporal features within the action time ranges and guarantees the discriminability of the extracted representations. Moreover, using DFA helps to develop a Dynamic TAD head (DyHead), which adaptively aggregates the multi-scale features with adjusted parameters and learned receptive fields better to detect the action instances with diverse ranges from videos. With the proposed encoder layer and DyHead, a new dynamic TAD model, DyFADet, achieves promising performance on a series of challenging TAD benchmarks, including HACS-Segment, THUMOS14, ActivityNet-1.3, Epic-Kitchen 100, Ego4D-Moment QueriesV1.0, and FineAction. Code is released to https://github.com/yangle15/DyFADet-pytorch.
- Abstract(参考訳): 近年提案されたニューラルネットワークに基づく時間行動検出(TAD)モデルは,共有重み検出ヘッドによって複雑なシーンから識別的表現を抽出し,様々な長さのアクションインスタンスをモデル化することに本質的に制限されている。
本稿では、動的ニューラルネットワークの成功に触発されて、異なるタイムスタンプでカーネル重みと受容場を同時に適応できる新しい動的特徴集約(DFA)モジュールを構築する。
DFAに基づいて、提案する動的エンコーダ層は、動作時間範囲内の時間的特徴を集約し、抽出した表現の識別性を保証する。
さらに、DFAを使用することで、動的TADヘッド(DyHead)の開発を支援し、ビデオからさまざまな範囲のアクションインスタンスを検出するために、調整されたパラメータと学習された受容フィールドで、マルチスケールの機能を適応的に集約する。
提案されたエンコーダ層とDyHeadにより、新しい動的TADモデルであるDyFADetは、HACS-Segment、THUMOS14、ActivityNet-1.3、Epic-Kitchen 100、Ego4D-Moment QueriesV1.0、FineActionなど、一連の挑戦的なTADベンチマークで有望なパフォーマンスを達成する。
コードはhttps://github.com/yangle15/DyFADet-pytorchにリリースされている。
関連論文リスト
- Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Variational Predictive Routing with Nested Subjective Timescales [1.6114012813668934]
本稿では,時間的階層に潜む映像の特徴を整理するニューラル推論システムである変動予測ルーティング(PRV)を提案する。
VPRはイベント境界を検出し、時間的特徴を分散させ、データの動的階層に適応し、未来の正確な時間に依存しないロールアウトを生成することができることを示す。
論文 参考訳(メタデータ) (2021-10-21T16:12:59Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - TDN: Temporal Difference Networks for Efficient Action Recognition [31.922001043405924]
本稿では,時間差分ネットワーク(TDN)と呼ばれる新しいビデオアーキテクチャを提案する。
我々のTDNの中核は、時間差演算子を明示的に活用することで効率的な時間差モジュール(TDM)を考案することである。
我々のTDNは、Something V1 & V2データセットに関する新しい技術状況を示し、Kinetics-400データセットの最高のパフォーマンスと同等です。
論文 参考訳(メタデータ) (2020-12-18T06:31:08Z) - Fine-Grained Dynamic Head for Object Detection [68.70628757217939]
本稿では,各インスタンスの異なるスケールからfpn特徴の画素レベルの組み合わせを条件付きで選択する,きめ細かい動的ヘッドを提案する。
実験は,いくつかの最先端検出ベンチマークにおける提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2020-12-07T08:16:32Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。