論文の概要: SimOn: A Simple Framework for Online Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2211.04905v1
- Date: Tue, 8 Nov 2022 04:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:15:52.541774
- Title: SimOn: A Simple Framework for Online Temporal Action Localization
- Title(参考訳): SimOn: オンライン・テンポラル・アクション・ローカライゼーションのためのシンプルなフレームワーク
- Authors: Tuan N. Tang, Jungin Park, Kwonyoung Kim, Kwanghoon Sohn
- Abstract要約: 一般的なTransformerアーキテクチャを用いて,アクションインスタンスの予測を学習するSimOnというフレームワークを提案する。
THUMOS14とActivityNet1.3データセットの実験結果は、我々のモデルが従来の手法よりも著しく優れていることを示している。
- 参考スコア(独自算出の注目度): 51.27476730635852
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Online Temporal Action Localization (On-TAL) aims to immediately provide
action instances from untrimmed streaming videos. The model is not allowed to
utilize future frames and any processing techniques to modify past predictions,
making On-TAL much more challenging. In this paper, we propose a simple yet
effective framework, termed SimOn, that learns to predict action instances
using the popular Transformer architecture in an end-to-end manner.
Specifically, the model takes the current frame feature as a query and a set of
past context information as keys and values of the Transformer. Different from
the prior work that uses a set of outputs of the model as past contexts, we
leverage the past visual context and the learnable context embedding for the
current query. Experimental results on the THUMOS14 and ActivityNet1.3 datasets
show that our model remarkably outperforms the previous methods, achieving a
new state-of-the-art On-TAL performance. In addition, the evaluation for Online
Detection of Action Start (ODAS) demonstrates the effectiveness and robustness
of our method in the online setting. The code is available at
https://github.com/TuanTNG/SimOn
- Abstract(参考訳): Online Temporal Action Localization (On-TAL)は、未トリミングストリーミングビデオからアクションインスタンスを即座に提供することを目的としている。
このモデルは、過去の予測を修正するために将来のフレームや処理技術を利用することはできないため、より難しい。
本稿では,一般的なTransformerアーキテクチャを用いて,アクションインスタンスをエンドツーエンドで予測する,シンプルで効果的なフレームワークSimOnを提案する。
具体的には、現在のフレーム機能をクエリとして、過去のコンテキスト情報のセットをTransformerのキーと値として取ります。
モデルの出力セットを過去のコンテキストとして使用する以前の作業とは異なり、過去の視覚的コンテキストと現在のクエリのための学習可能なコンテキスト埋め込みを活用する。
THUMOS14とActivityNet1.3データセットの実験結果から、我々のモデルは従来の手法よりも著しく優れており、新しい最先端のOn-TALパフォーマンスを実現していることがわかる。
さらに,行動開始のオンライン検出(ODAS)の評価は,オンライン環境での手法の有効性とロバスト性を示す。
コードはhttps://github.com/TuanTNG/SimOnで入手できる。
関連論文リスト
- HAT: History-Augmented Anchor Transformer for Online Temporal Action Localization [3.187381965457262]
本報告では,OnTAL 用 History-Augmented Anchor Transformer (HAT) フレームワークについて述べる。
歴史的文脈を統合することにより,長期情報と短期情報との相乗効果が向上する。
我々は,PREGO(Procedural egocentric)データセットと標準非PREGOOnTALデータセットの両方を用いて,本モデルを評価した。
論文 参考訳(メタデータ) (2024-08-12T18:29:48Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - A Novel Online Action Detection Framework from Untrimmed Video Streams [19.895434487276578]
本稿では,時間的に順序付けられたサブクラスの集合として行動を検出する新しいオンライン行動検出フレームワークを提案する。
提案手法は,映像の長さを変化させることで,人間の行動における高いクラス内変動を学習できるようにする。
論文 参考訳(メタデータ) (2020-03-17T14:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。