論文の概要: GateHUB: Gated History Unit with Background Suppression for Online
Action Detection
- arxiv url: http://arxiv.org/abs/2206.04668v1
- Date: Thu, 9 Jun 2022 17:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 14:39:01.886426
- Title: GateHUB: Gated History Unit with Background Suppression for Online
Action Detection
- Title(参考訳): GateHUB: オンラインアクション検出のためのバックグラウンド抑圧付きゲートヒストリーユニット
- Authors: Junwen Chen, Gaurav Mittal, Ye Yu, Yu Kong, Mei Chen
- Abstract要約: GateHUBは、歴史の一部を強化または抑制するための、新しい位置誘導ゲートクロスアテンション機構を含む。
変換器の長距離時間モデリング能力と繰り返しモデルの能力を統合し、関連する情報を選択的に符号化する。
GateHUBは既存のすべてのメソッドを著しく上回り、既存のベストプラクティスよりも効率的である。
- 参考スコア(独自算出の注目度): 28.81309966525902
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Online action detection is the task of predicting the action as soon as it
happens in a streaming video. A major challenge is that the model does not have
access to the future and has to solely rely on the history, i.e., the frames
observed so far, to make predictions. It is therefore important to accentuate
parts of the history that are more informative to the prediction of the current
frame. We present GateHUB, Gated History Unit with Background Suppression, that
comprises a novel position-guided gated cross-attention mechanism to enhance or
suppress parts of the history as per how informative they are for current frame
prediction. GateHUB further proposes Future-augmented History (FaH) to make
history features more informative by using subsequently observed frames when
available. In a single unified framework, GateHUB integrates the transformer's
ability of long-range temporal modeling and the recurrent model's capacity to
selectively encode relevant information. GateHUB also introduces a background
suppression objective to further mitigate false positive background frames that
closely resemble the action frames. Extensive validation on three benchmark
datasets, THUMOS, TVSeries, and HDD, demonstrates that GateHUB significantly
outperforms all existing methods and is also more efficient than the existing
best work. Furthermore, a flow-free version of GateHUB is able to achieve
higher or close accuracy at 2.8x higher frame rate compared to all existing
methods that require both RGB and optical flow information for prediction.
- Abstract(参考訳): オンラインアクション検出は、ストリーミングビデオで発生したアクションをすぐに予測するタスクである。
主要な課題は、モデルが未来にアクセスすることができず、予測するためには歴史、すなわちこれまで観察されたフレームにのみ依存しなければならないことである。
したがって、現在のフレームの予測により有益である歴史の一部を強調することが重要である。
背景抑圧機能を有するゲート履歴ユニットgatehubを提案する。これは新しい位置誘導ゲートクロスアテンション機構で構成されており、現在のフレーム予測にいかに有益であるかに応じて履歴の一部を強化または抑制する。
gatehubはさらに、後続の観察されたフレームを使用することで、履歴機能をより有益なものにするために、future-augmented history(fah)を提案している。
単一の統合フレームワークにおいて、GateHUBはトランスフォーマーの長距離時間モデリング能力と、関連する情報を選択的にエンコードするリカレントモデルの能力を統合する。
gatehubはまた、アクションフレームによく似た偽のポジティブな背景フレームを緩和するバックグラウンド抑圧目的も導入している。
THUMOS、TVSeries、HDDの3つのベンチマークデータセットに対する大規模な検証は、GateHUBが既存のすべてのメソッドを大幅に上回っており、既存のベストプラクティスよりも効率的であることを示している。
さらに、フローフリーバージョンのgatehubは、予測のためにrgbと光フロー情報の両方を必要とする既存の方法よりも2.8倍高いフレームレートで高いまたは近い精度を達成することができる。
関連論文リスト
- An Efficient and Streaming Audio Visual Active Speaker Detection System [2.4515389321702132]
リアルタイム制約によって引き起こされる重要な課題に対処するシナリオを2つ提示する。
まず,ASDモデルを用いた将来のコンテキストフレーム数を制限する手法を提案する。
第二に、モデルが推論時にアクセス可能な過去のフレームの総数を制限する、より厳密な制約を提案する。
論文 参考訳(メタデータ) (2024-09-13T17:45:53Z) - Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - HPNet: Dynamic Trajectory Forecasting with Historical Prediction Attention [76.37139809114274]
HPNetは、新しい動的軌道予測手法である。
逐次予測間の動的関係を自動的に符号化する履歴予測アテンションモジュールを提案する。
私たちのコードはhttps://github.com/XiaolongTang23/HPNetで利用可能です。
論文 参考訳(メタデータ) (2024-04-09T14:42:31Z) - Exploring the Limits of Historical Information for Temporal Knowledge
Graph Extrapolation [59.417443739208146]
本稿では,歴史的コントラスト学習の新しい学習枠組みに基づくイベント予測モデルを提案する。
CENETは、最も潜在的なエンティティを識別するために、歴史的および非歴史的依存関係の両方を学ぶ。
提案したモデルを5つのベンチマークグラフで評価する。
論文 参考訳(メタデータ) (2023-08-29T03:26:38Z) - Gated-ViGAT: Efficient Bottom-Up Event Recognition and Explanation Using
a New Frame Selection Policy and Gating Mechanism [8.395400675921515]
Gated-ViGATは、ビデオイベント認識のための効率的なアプローチである。
ボトムアップ(オブジェクト)情報、新しいフレームサンプリングポリシー、ゲーティングメカニズムを使用する。
Gated-ViGATは,従来の手法と比較して計算量を大幅に削減する。
論文 参考訳(メタデータ) (2023-01-18T14:36:22Z) - Inductive Attention for Video Action Anticipation [16.240254363118016]
我々は、現在の予測を将来の行動を予測するクエリとして活用する、IAMと呼ばれるインダクティブアテンションモデルを提案する。
提案手法は,複数の大規模エゴセントリックビデオデータセット上での最先端の予測モデルより一貫して優れている。
論文 参考訳(メタデータ) (2022-12-17T09:51:17Z) - A Circular Window-based Cascade Transformer for Online Action Detection [27.880350187125778]
我々は,オンライン行動検出の新しい,効率的な原則を提唱する。
1つのウィンドウで最新かつ最も古い歴史的表現を更新するだけであるが、既に計算されている中間表現を再利用する。
この原理に基づいて,複数ステージの注目と各ウィンドウのカスケード改善を行う,円形の履歴キューを備えたウィンドウベースカスケード変換器を導入する。
論文 参考訳(メタデータ) (2022-08-30T12:37:23Z) - Complex Event Forecasting with Prediction Suffix Trees: Extended
Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。
このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。
複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T09:52:31Z) - Privileged Knowledge Distillation for Online Action Detection [114.5213840651675]
リアルタイム予測タスクに対処するフレーム単位のラベル付けタスクとして,ビデオ中のオンラインアクション検出(OAD)を提案する。
本稿では,トレーニング段階においてのみ観測可能な未来のフレームを特権情報の一種とみなすオンライン行動検出のための,新たな学習支援型フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-18T08:52:15Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。