論文の概要: GateHUB: Gated History Unit with Background Suppression for Online
Action Detection
- arxiv url: http://arxiv.org/abs/2206.04668v1
- Date: Thu, 9 Jun 2022 17:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 14:39:01.886426
- Title: GateHUB: Gated History Unit with Background Suppression for Online
Action Detection
- Title(参考訳): GateHUB: オンラインアクション検出のためのバックグラウンド抑圧付きゲートヒストリーユニット
- Authors: Junwen Chen, Gaurav Mittal, Ye Yu, Yu Kong, Mei Chen
- Abstract要約: GateHUBは、歴史の一部を強化または抑制するための、新しい位置誘導ゲートクロスアテンション機構を含む。
変換器の長距離時間モデリング能力と繰り返しモデルの能力を統合し、関連する情報を選択的に符号化する。
GateHUBは既存のすべてのメソッドを著しく上回り、既存のベストプラクティスよりも効率的である。
- 参考スコア(独自算出の注目度): 28.81309966525902
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Online action detection is the task of predicting the action as soon as it
happens in a streaming video. A major challenge is that the model does not have
access to the future and has to solely rely on the history, i.e., the frames
observed so far, to make predictions. It is therefore important to accentuate
parts of the history that are more informative to the prediction of the current
frame. We present GateHUB, Gated History Unit with Background Suppression, that
comprises a novel position-guided gated cross-attention mechanism to enhance or
suppress parts of the history as per how informative they are for current frame
prediction. GateHUB further proposes Future-augmented History (FaH) to make
history features more informative by using subsequently observed frames when
available. In a single unified framework, GateHUB integrates the transformer's
ability of long-range temporal modeling and the recurrent model's capacity to
selectively encode relevant information. GateHUB also introduces a background
suppression objective to further mitigate false positive background frames that
closely resemble the action frames. Extensive validation on three benchmark
datasets, THUMOS, TVSeries, and HDD, demonstrates that GateHUB significantly
outperforms all existing methods and is also more efficient than the existing
best work. Furthermore, a flow-free version of GateHUB is able to achieve
higher or close accuracy at 2.8x higher frame rate compared to all existing
methods that require both RGB and optical flow information for prediction.
- Abstract(参考訳): オンラインアクション検出は、ストリーミングビデオで発生したアクションをすぐに予測するタスクである。
主要な課題は、モデルが未来にアクセスすることができず、予測するためには歴史、すなわちこれまで観察されたフレームにのみ依存しなければならないことである。
したがって、現在のフレームの予測により有益である歴史の一部を強調することが重要である。
背景抑圧機能を有するゲート履歴ユニットgatehubを提案する。これは新しい位置誘導ゲートクロスアテンション機構で構成されており、現在のフレーム予測にいかに有益であるかに応じて履歴の一部を強化または抑制する。
gatehubはさらに、後続の観察されたフレームを使用することで、履歴機能をより有益なものにするために、future-augmented history(fah)を提案している。
単一の統合フレームワークにおいて、GateHUBはトランスフォーマーの長距離時間モデリング能力と、関連する情報を選択的にエンコードするリカレントモデルの能力を統合する。
gatehubはまた、アクションフレームによく似た偽のポジティブな背景フレームを緩和するバックグラウンド抑圧目的も導入している。
THUMOS、TVSeries、HDDの3つのベンチマークデータセットに対する大規模な検証は、GateHUBが既存のすべてのメソッドを大幅に上回っており、既存のベストプラクティスよりも効率的であることを示している。
さらに、フローフリーバージョンのgatehubは、予測のためにrgbと光フロー情報の両方を必要とする既存の方法よりも2.8倍高いフレームレートで高いまたは近い精度を達成することができる。
関連論文リスト
- F3-Pruning: A Training-Free and Generalized Pruning Strategy towards
Faster and Finer Text-to-Video Synthesis [94.10861578387443]
変圧器と拡散モデルを用いた2つの主流T2Vモデルの推論過程について検討する。
本稿では、時間的余分な注意重みを突破するF3プルーニングと呼ばれるトレーニングフリーで一般化されたプルーニング戦略を提案する。
古典的なトランスフォーマーベースモデルCogVideoと典型的な拡散ベースモデルTune-A-Videoを用いた3つのデータセットの大規模な実験により、F3-Pruningの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-06T12:34:47Z) - Exploring the Limits of Historical Information for Temporal Knowledge
Graph Extrapolation [59.417443739208146]
本稿では,歴史的コントラスト学習の新しい学習枠組みに基づくイベント予測モデルを提案する。
CENETは、最も潜在的なエンティティを識別するために、歴史的および非歴史的依存関係の両方を学ぶ。
提案したモデルを5つのベンチマークグラフで評価する。
論文 参考訳(メタデータ) (2023-08-29T03:26:38Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Gated-ViGAT: Efficient Bottom-Up Event Recognition and Explanation Using
a New Frame Selection Policy and Gating Mechanism [8.395400675921515]
Gated-ViGATは、ビデオイベント認識のための効率的なアプローチである。
ボトムアップ(オブジェクト)情報、新しいフレームサンプリングポリシー、ゲーティングメカニズムを使用する。
Gated-ViGATは,従来の手法と比較して計算量を大幅に削減する。
論文 参考訳(メタデータ) (2023-01-18T14:36:22Z) - Inductive Attention for Video Action Anticipation [16.240254363118016]
我々は、現在の予測を将来の行動を予測するクエリとして活用する、IAMと呼ばれるインダクティブアテンションモデルを提案する。
提案手法は,複数の大規模エゴセントリックビデオデータセット上での最先端の予測モデルより一貫して優れている。
論文 参考訳(メタデータ) (2022-12-17T09:51:17Z) - A Circular Window-based Cascade Transformer for Online Action Detection [27.880350187125778]
我々は,オンライン行動検出の新しい,効率的な原則を提唱する。
1つのウィンドウで最新かつ最も古い歴史的表現を更新するだけであるが、既に計算されている中間表現を再利用する。
この原理に基づいて,複数ステージの注目と各ウィンドウのカスケード改善を行う,円形の履歴キューを備えたウィンドウベースカスケード変換器を導入する。
論文 参考訳(メタデータ) (2022-08-30T12:37:23Z) - Multi-Contextual Predictions with Vision Transformer for Video Anomaly
Detection [22.098399083491937]
ビデオの時間的文脈を理解することは、異常検出において重要な役割を果たす。
我々は3つの異なる文脈予測ストリームを持つトランスモデルを設計する。
連続する正常フレームの欠落フレームの予測を学習することにより、ビデオ内の様々な正常パターンを効果的に学習することができる。
論文 参考訳(メタデータ) (2022-06-17T05:54:31Z) - Complex Event Forecasting with Prediction Suffix Trees: Extended
Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。
このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。
複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T09:52:31Z) - Privileged Knowledge Distillation for Online Action Detection [114.5213840651675]
リアルタイム予測タスクに対処するフレーム単位のラベル付けタスクとして,ビデオ中のオンラインアクション検出(OAD)を提案する。
本稿では,トレーニング段階においてのみ観測可能な未来のフレームを特権情報の一種とみなすオンライン行動検出のための,新たな学習支援型フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-18T08:52:15Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。