論文の概要: A Circular Window-based Cascade Transformer for Online Action Detection
- arxiv url: http://arxiv.org/abs/2208.14209v1
- Date: Tue, 30 Aug 2022 12:37:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 13:07:37.343408
- Title: A Circular Window-based Cascade Transformer for Online Action Detection
- Title(参考訳): オンライン動作検出のための円窓型カスケードトランス
- Authors: Shuqiang Cao, Weixin Luo, Bairui Wang, Wei Zhang, Lin Ma
- Abstract要約: 我々は,オンライン行動検出の新しい,効率的な原則を提唱する。
1つのウィンドウで最新かつ最も古い歴史的表現を更新するだけであるが、既に計算されている中間表現を再利用する。
この原理に基づいて,複数ステージの注目と各ウィンドウのカスケード改善を行う,円形の履歴キューを備えたウィンドウベースカスケード変換器を導入する。
- 参考スコア(独自算出の注目度): 27.880350187125778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online action detection aims at the accurate action prediction of the current
frame based on long historical observations. Meanwhile, it demands real-time
inference on online streaming videos. In this paper, we advocate a novel and
efficient principle for online action detection. It merely updates the latest
and oldest historical representations in one window but reuses the intermediate
ones, which have been already computed. Based on this principle, we introduce a
window-based cascade Transformer with a circular historical queue, where it
conducts multi-stage attentions and cascade refinement on each window. We also
explore the association between online action detection and its counterpart
offline action segmentation as an auxiliary task. We find that such an extra
supervision helps discriminative history clustering and acts as feature
augmentation for better training the classifier and cascade refinement. Our
proposed method achieves the state-of-the-art performances on three challenging
datasets THUMOS'14, TVSeries, and HDD. Codes will be available after
acceptance.
- Abstract(参考訳): オンライン行動検出は、長い歴史観測に基づく現在のフレームの正確な行動予測を目的としている。
一方、オンラインストリーミングビデオのリアルタイム推論を要求する。
本稿では,オンライン行動検出の新しい,効率的な原則を提案する。
1つのウィンドウで最新かつ最も古い歴史的表現を更新するだけであるが、既に計算されている中間表現を再利用する。
この原理に基づいて,複数ステージの注目と各ウィンドウのカスケード改善を行う,円形の履歴キューを備えたウィンドウベースカスケードトランスを導入する。
また,オンライン行動検出とオフライン行動セグメント化の関連性についても検討する。
このような余分な監督は、識別履歴のクラスタリングに役立ち、分類器とカスケードの改良をより良く訓練するための特徴増強として機能する。
提案手法は,THUMOS'14,TVSeries,HDDの3つの挑戦的データセットに対して,最先端の性能を実現する。
コードは受理後に利用可能になる。
関連論文リスト
- Online Action Representation using Change Detection and Symbolic Programming [0.3937354192623676]
提案手法では,動作シーケンスを自動的にセグメント化するために変更検出アルゴリズムを用いる。
クラス繰り返し検出の下流タスクにおいて,この表現の有効性を示す。
実験の結果,提案手法はオンラインで動作しているにもかかわらず,既存手法と同等あるいは同等に動作していることがわかった。
論文 参考訳(メタデータ) (2024-05-19T10:31:59Z) - SimOn: A Simple Framework for Online Temporal Action Localization [51.27476730635852]
一般的なTransformerアーキテクチャを用いて,アクションインスタンスの予測を学習するSimOnというフレームワークを提案する。
THUMOS14とActivityNet1.3データセットの実験結果は、我々のモデルが従来の手法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2022-11-08T04:50:54Z) - Continual Transformers: Redundancy-Free Attention for Online Inference [86.3361797111839]
連続的な入力ストリームにおいて、トランスフォーマーが効率的なオンライントークン・バイ・トケン推論を行うことができるスケールド・ドット・プロダクト・アテンション(Scaled Dot-Product Attention)の新たな定式化を提案する。
我々の修正は純粋に計算順に行われ、生成した出力と学習重量は元のマルチヘッド注意のものと同一である。
論文 参考訳(メタデータ) (2022-01-17T08:20:09Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - Online Spatiotemporal Action Detection and Prediction via Causal
Representations [1.9798034349981157]
まず、従来のオフラインアクション検出パイプラインをオンラインアクションチューブ検出システムに変換することから始めます。
本稿では,既存の動作管を回帰的に未来へ拡張することで,そのような検出手法の今後の予測機能について検討する。
その後、オンライン/時間表現は、様々なタスクにおけるオフライン3次元畳み込みニューラルネットワーク(CNN)と同様のパフォーマンスが得られることを確かめる。
論文 参考訳(メタデータ) (2020-08-31T17:28:51Z) - WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos [124.72839555467944]
ビデオクラスラベルのみを用いてトレーニングできる弱教師付きフレームワークを提案する。
提案手法は, 弱教師付きベースラインよりも優れていることを示す。
本手法は,オンラインフレームごとの行動認識とオンライン行動開始検出の両方のタスクにおいて,最先端の成果を得る。
論文 参考訳(メタデータ) (2020-06-05T23:08:41Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z) - Two-Stream AMTnet for Action Detection [12.581710073789848]
本稿では,オンライン行動検出のための新しいディープニューラルネットワークアーキテクチャを提案する。
Two-Stream AMTnetは、標準アクション検出ベンチマークにおける最先端アプローチよりも優れた動作検出性能を示す。
論文 参考訳(メタデータ) (2020-04-03T12:16:45Z) - A Novel Online Action Detection Framework from Untrimmed Video Streams [19.895434487276578]
本稿では,時間的に順序付けられたサブクラスの集合として行動を検出する新しいオンライン行動検出フレームワークを提案する。
提案手法は,映像の長さを変化させることで,人間の行動における高いクラス内変動を学習できるようにする。
論文 参考訳(メタデータ) (2020-03-17T14:11:24Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。