Fugu-MT 論文翻訳(概要): GateHUB: Gated History Unit with Background Suppression for Online Action Detection

論文の概要: GateHUB: Gated History Unit with Background Suppression for Online Action Detection

arxiv url: http://arxiv.org/abs/2206.04668v1
Date: Thu, 9 Jun 2022 17:59:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-10 14:39:01.886426
Title: GateHUB: Gated History Unit with Background Suppression for Online Action Detection
Title（参考訳）: GateHUB: オンラインアクション検出のためのバックグラウンド抑圧付きゲートヒストリーユニット
Authors: Junwen Chen, Gaurav Mittal, Ye Yu, Yu Kong, Mei Chen
Abstract要約: GateHUBは、歴史の一部を強化または抑制するための、新しい位置誘導ゲートクロスアテンション機構を含む。変換器の長距離時間モデリング能力と繰り返しモデルの能力を統合し、関連する情報を選択的に符号化する。 GateHUBは既存のすべてのメソッドを著しく上回り、既存のベストプラクティスよりも効率的である。
参考スコア（独自算出の注目度）: 28.81309966525902
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Online action detection is the task of predicting the action as soon as it happens in a streaming video. A major challenge is that the model does not have access to the future and has to solely rely on the history, i.e., the frames observed so far, to make predictions. It is therefore important to accentuate parts of the history that are more informative to the prediction of the current frame. We present GateHUB, Gated History Unit with Background Suppression, that comprises a novel position-guided gated cross-attention mechanism to enhance or suppress parts of the history as per how informative they are for current frame prediction. GateHUB further proposes Future-augmented History (FaH) to make history features more informative by using subsequently observed frames when available. In a single unified framework, GateHUB integrates the transformer's ability of long-range temporal modeling and the recurrent model's capacity to selectively encode relevant information. GateHUB also introduces a background suppression objective to further mitigate false positive background frames that closely resemble the action frames. Extensive validation on three benchmark datasets, THUMOS, TVSeries, and HDD, demonstrates that GateHUB significantly outperforms all existing methods and is also more efficient than the existing best work. Furthermore, a flow-free version of GateHUB is able to achieve higher or close accuracy at 2.8x higher frame rate compared to all existing methods that require both RGB and optical flow information for prediction.
Abstract（参考訳）: オンラインアクション検出は、ストリーミングビデオで発生したアクションをすぐに予測するタスクである。主要な課題は、モデルが未来にアクセスすることができず、予測するためには歴史、すなわちこれまで観察されたフレームにのみ依存しなければならないことである。したがって、現在のフレームの予測により有益である歴史の一部を強調することが重要である。背景抑圧機能を有するゲート履歴ユニットgatehubを提案する。これは新しい位置誘導ゲートクロスアテンション機構で構成されており、現在のフレーム予測にいかに有益であるかに応じて履歴の一部を強化または抑制する。 gatehubはさらに、後続の観察されたフレームを使用することで、履歴機能をより有益なものにするために、future-augmented history(fah)を提案している。単一の統合フレームワークにおいて、GateHUBはトランスフォーマーの長距離時間モデリング能力と、関連する情報を選択的にエンコードするリカレントモデルの能力を統合する。 gatehubはまた、アクションフレームによく似た偽のポジティブな背景フレームを緩和するバックグラウンド抑圧目的も導入している。 THUMOS、TVSeries、HDDの3つのベンチマークデータセットに対する大規模な検証は、GateHUBが既存のすべてのメソッドを大幅に上回っており、既存のベストプラクティスよりも効率的であることを示している。さらに、フローフリーバージョンのgatehubは、予測のためにrgbと光フロー情報の両方を必要とする既存の方法よりも2.8倍高いフレームレートで高いまたは近い精度を達成することができる。

関連論文リスト

Hierarchical Event Memory for Accurate and Low-latency Online Video Temporal Grounding [49.51013055630857]
オンラインビデオ時間グラウンド(OnVTG)の課題に取り組み、ビデオストリーム内で所定のテキストクエリに関連するイベントを特定する必要がある。通常のビデオ時間グラウンドとは異なり、OnVTGは将来のフレームを観察することなく予測を行うモデルを必要とする。イベントレベルの情報を様々な期間でモデル化するイベント提案に基づいて予測を行うイベントベースOnVTGフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-06T15:33:49Z)
CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation [67.1520483301709]
CronusVLAはシングルフレームのVLAモデルを効率的な後トレーニング段階を通じてマルチフレームのパラダイムに拡張する統合フレームワークである。 CronusVLAはSimplerEnvの最先端のパフォーマンスを70.9%の成功率で達成し、LIBEROのOpenVLAよりも12.7%改善した。
論文参考訳（メタデータ） (2025-06-24T17:30:27Z)
Exploiting Inaccurate Branch History in Side-Channel Attacks [54.218160467764086]
本稿では,リソース共有と競合が広く実装されているが文書化されていない2つの特徴,バイアスフリー分岐予測と分岐履歴推定にどのように影響するかを検討する。これらの機能は、ブランチ履歴バッファ(BHB)の更新動作を不注意に修正し、悪意のある誤定義を引き起こす新しいプリミティブを作成することができる。 2つのSpectre攻撃、すなわちSpectre-BSEとSpectre-BHSと、BiasScopeと呼ばれるクロスプライマリ制御フローサイドチャネル攻撃である。
論文参考訳（メタデータ） (2025-06-08T19:46:43Z)
DIFFVSGG: Diffusion-Driven Online Video Scene Graph Generation [61.59996525424585]
DIFFVSGGはオンラインのVSGGソリューションで、このタスクを反復的なシーングラフ更新問題とみなしている。オブジェクト分類の復号化、境界ボックス回帰、グラフ生成の3つのタスクを1つの共有特徴埋め込みを用いて統合する。 DIFFVSGGはさらに、後続のフレームの予測が過去のフレームの結果をLCMの条件入力として活用する継続的時間的推論を促進する。
論文参考訳（メタデータ） (2025-03-18T06:49:51Z)
History-Guided Video Diffusion [61.03681839276652]
ビデオ拡散は、可変数のコンテキストフレーム上に設定されたビデオ条件を生成し、総称してヒストリと呼ばれる。可変長履歴を導く上で重要な課題は、固定サイズの条件付けのみをサポートするアーキテクチャと、CFGスタイルの履歴ドロップアウトが不十分な経験的観察である。 DFoTによって一意に実現されたガイダンス手法であるHistory Guidanceを紹介する。
論文参考訳（メタデータ） (2025-02-10T18:44:25Z)
MAUCell: An Adaptive Multi-Attention Framework for Video Frame Prediction [0.0]
本稿では,GAN(Generative Adrative Networks)とアテンション機構を組み合わせたマルチアテンションユニット(MAUCell)を導入する。新しい設計システムは、時間的連続性と空間的精度の平衡を維持し、信頼性の高い映像予測を提供する。
論文参考訳（メタデータ） (2025-01-28T14:52:10Z)
An Efficient and Streaming Audio Visual Active Speaker Detection System [2.4515389321702132]
リアルタイム制約によって引き起こされる重要な課題に対処するシナリオを2つ提示する。まず,ASDモデルを用いた将来のコンテキストフレーム数を制限する手法を提案する。第二に、モデルが推論時にアクセス可能な過去のフレームの総数を制限する、より厳密な制約を提案する。
論文参考訳（メタデータ） (2024-09-13T17:45:53Z)
Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。 Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文参考訳（メタデータ） (2024-07-25T06:03:02Z)
HPNet: Dynamic Trajectory Forecasting with Historical Prediction Attention [76.37139809114274]
HPNetは、新しい動的軌道予測手法である。逐次予測間の動的関係を自動的に符号化する履歴予測アテンションモジュールを提案する。私たちのコードはhttps://github.com/XiaolongTang23/HPNetで利用可能です。
論文参考訳（メタデータ） (2024-04-09T14:42:31Z)
Exploring the Limits of Historical Information for Temporal Knowledge Graph Extrapolation [59.417443739208146]
本稿では,歴史的コントラスト学習の新しい学習枠組みに基づくイベント予測モデルを提案する。 CENETは、最も潜在的なエンティティを識別するために、歴史的および非歴史的依存関係の両方を学ぶ。提案したモデルを5つのベンチマークグラフで評価する。
論文参考訳（メタデータ） (2023-08-29T03:26:38Z)
Gated-ViGAT: Efficient Bottom-Up Event Recognition and Explanation Using a New Frame Selection Policy and Gating Mechanism [8.395400675921515]
Gated-ViGATは、ビデオイベント認識のための効率的なアプローチである。ボトムアップ(オブジェクト)情報、新しいフレームサンプリングポリシー、ゲーティングメカニズムを使用する。 Gated-ViGATは,従来の手法と比較して計算量を大幅に削減する。
論文参考訳（メタデータ） (2023-01-18T14:36:22Z)
Inductive Attention for Video Action Anticipation [16.240254363118016]
我々は、現在の予測を将来の行動を予測するクエリとして活用する、IAMと呼ばれるインダクティブアテンションモデルを提案する。提案手法は,複数の大規模エゴセントリックビデオデータセット上での最先端の予測モデルより一貫して優れている。
論文参考訳（メタデータ） (2022-12-17T09:51:17Z)
A Circular Window-based Cascade Transformer for Online Action Detection [27.880350187125778]
我々は,オンライン行動検出の新しい,効率的な原則を提唱する。 1つのウィンドウで最新かつ最も古い歴史的表現を更新するだけであるが、既に計算されている中間表現を再利用する。この原理に基づいて,複数ステージの注目と各ウィンドウのカスケード改善を行う,円形の履歴キューを備えたウィンドウベースカスケード変換器を導入する。
論文参考訳（メタデータ） (2022-08-30T12:37:23Z)
Complex Event Forecasting with Prediction Suffix Trees: Extended Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-01T09:52:31Z)
Privileged Knowledge Distillation for Online Action Detection [114.5213840651675]
リアルタイム予測タスクに対処するフレーム単位のラベル付けタスクとして,ビデオ中のオンラインアクション検出(OAD)を提案する。本稿では,トレーニング段階においてのみ観測可能な未来のフレームを特権情報の一種とみなすオンライン行動検出のための,新たな学習支援型フレームワークを提案する。
論文参考訳（メタデータ） (2020-11-18T08:52:15Z)
TTPP: Temporal Transformer with Progressive Prediction for Efficient Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文参考訳（メタデータ） (2020-03-07T07:59:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。