論文の概要: MALT: Multi-scale Action Learning Transformer for Online Action Detection
- arxiv url: http://arxiv.org/abs/2405.20892v1
- Date: Fri, 31 May 2024 15:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 13:58:40.628231
- Title: MALT: Multi-scale Action Learning Transformer for Online Action Detection
- Title(参考訳): MALT:オンライン行動検出のためのマルチスケールアクション学習変換器
- Authors: Zhipeng Yang, Ruoyu Wang, Yang Tan, Liping Xie,
- Abstract要約: オンラインアクション検出(OAD)は、将来的なフレームにアクセスすることなく、リアルタイムでストリーミングビデオから進行中のアクションを特定することを目的としている。
本稿では,新しいリカレントデコーダを備えたマルチスケール動作学習トランス (MALT) を提案する。
また、無関係なフレームをより効率的にフィルタリングするスパースアテンションを用いた明示的なフレームスコアリング機構も導入する。
- 参考スコア(独自算出の注目度): 6.819772961626024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online action detection (OAD) aims to identify ongoing actions from streaming video in real-time, without access to future frames. Since these actions manifest at varying scales of granularity, ranging from coarse to fine, projecting an entire set of action frames to a single latent encoding may result in a lack of local information, necessitating the acquisition of action features across multiple scales. In this paper, we propose a multi-scale action learning transformer (MALT), which includes a novel recurrent decoder (used for feature fusion) that includes fewer parameters and can be trained more efficiently. A hierarchical encoder with multiple encoding branches is further proposed to capture multi-scale action features. The output from the preceding branch is then incrementally input to the subsequent branch as part of a cross-attention calculation. In this way, output features transition from coarse to fine as the branches deepen. We also introduce an explicit frame scoring mechanism employing sparse attention, which filters irrelevant frames more efficiently, without requiring an additional network. The proposed method achieved state-of-the-art performance on two benchmark datasets (THUMOS'14 and TVSeries), outperforming all existing models used for comparison, with an mAP of 0.2% for THUMOS'14 and an mcAP of 0.1% for TVseries.
- Abstract(参考訳): オンラインアクション検出(OAD)は、将来的なフレームにアクセスすることなく、リアルタイムでストリーミングビデオから進行中のアクションを特定することを目的としている。
これらのアクションは、粗いものから細かいものまで様々な粒度のスケールで現れるため、一連のアクションフレーム全体を1つの潜在エンコーディングに投影すると、局所的な情報が不足し、複数のスケールにわたるアクション特徴の獲得が必要になる可能性がある。
本稿では、より少ないパラメータを含む新しい再帰デコーダ(特徴融合に使用される)を備え、より効率的に訓練できるマルチスケール動作学習変換器(MALT)を提案する。
複数のエンコード分岐を持つ階層型エンコーダは、マルチスケールのアクション特徴をキャプチャするためにさらに提案される。
その後、前枝からの出力は、相互注意計算の一部として次枝に漸進的に入力される。
このようにして、出力特性は枝が深まるにつれて粗いものから細かいものへと遷移する。
また,無関係なフレームをより効率的にフィルタし,付加的なネットワークを必要とせず,スパースアテンションを用いた明示的なフレームスコアリング機構を導入する。
提案手法は2つのベンチマークデータセット(THUMOS'14とTVSeries)で最先端のパフォーマンスを達成し、比較に使用した既存のモデルでは、THUMOS'14のmAPが0.2%、TVシリーズのmcAPが0.1%を上回った。
関連論文リスト
- DyFADet: Dynamic Feature Aggregation for Temporal Action Detection [70.37707797523723]
カーネル重みと受容フィールドを異なるタイムスタンプで適応できる新しい動的特徴集約(DFA)モジュールを構築した。
DFAを使用することで動的DADヘッド(DyHead)の開発を支援し、パラメータを調整したマルチスケール機能を適応的に集約する。
新しい動的TADモデルであるDyFADetは、一連の挑戦的なTADベンチマークで有望なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-03T15:29:10Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Video Frame Interpolation with Many-to-many Splatting and Spatial
Selective Refinement [83.60486465697318]
本稿では,フレームを効率的に補間するM2Mスプレイティングフレームワークを提案する。
入力フレームペアごとに、M2Mは任意の数のフレーム間を補間する際の計算オーバーヘッドが極小である。
フレキシブルな空間選択リファインメント(Spatial Selective Refinement)コンポーネントを導入して,M2M++フレームワークを拡張した。
論文 参考訳(メタデータ) (2023-10-29T09:09:32Z) - BIT: Bi-Level Temporal Modeling for Efficient Supervised Action
Segmentation [34.88225099758585]
教師付きアクションセグメンテーションは、ビデオを重複しないセグメントに分割することを目的としており、それぞれが異なるアクションを表す。
最近の研究は、高い計算コストを被るフレームレベルでの時間的モデリングを行うためにトランスフォーマーを適用している。
本稿では,アクションセグメントを表現するために明示的なアクショントークンを学習する,BIレベルの効率的な時間モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-28T20:59:15Z) - MA-FSAR: Multimodal Adaptation of CLIP for Few-Shot Action Recognition [41.78245303513613]
我々は,行動に関連する時間的および意味的表現の観点からCLIP視覚エンコーダを強化するために,Fine-Tuning(PEFT)技術を利用するフレームワークであるMA-FSARを紹介する。
これらのトークンレベルの設計に加えて,ビデオプロトタイプの時間的・意味的特性をさらに強化するプロトタイプレベルのテキストガイド構築モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-03T04:17:25Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Look More but Care Less in Video Recognition [57.96505328398205]
アクション認識法は通常、巨大な計算を避けるために、各ビデオを表すためにいくつかのフレームをサンプリングする。
本稿では,より多くのフレームを利用するために2つのブランチで構成されるAmple and Focal Network (AFNet)を提案する。
論文 参考訳(メタデータ) (2022-11-18T02:39:56Z) - Adaptive Perception Transformer for Temporal Action Localization [13.735402329482719]
本稿では適応知覚変換器(AdaPerFormer)と呼ばれる新しいエンドツーエンドモデルを提案する。
1つのブランチは、全ビデオシーケンスをモデル化し、グローバルな関連するコンテキストを集約するグローバルな認識の注意を気にする。
他のブランチは、フレーム内およびフレーム間の情報を集約するローカルな畳み込みシフトに集中する。
論文 参考訳(メタデータ) (2022-08-25T07:42:48Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。