論文の概要: Online Temporal Action Localization with Memory-Augmented Transformer
- arxiv url: http://arxiv.org/abs/2408.02957v1
- Date: Tue, 6 Aug 2024 04:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 14:59:44.449372
- Title: Online Temporal Action Localization with Memory-Augmented Transformer
- Title(参考訳): メモリ拡張型変圧器を用いたオンライン時間行動定位
- Authors: Youngkil Song, Dongkeun Kim, Minsu Cho, Suha Kwak,
- Abstract要約: オンライン時間的行動ローカライゼーションのためのメモリ拡張変換器(MATR)を提案する。
MATRは過去のセグメントの特徴を選択的に保存し、推論に長期的コンテキストを活用する。
また,現在進行中の動作の終了時刻を予測するために入力セグメントを観測し,メモリキューにアクセスして動作開始時刻を推定する新たな動作ローカライズ手法を提案する。
- 参考スコア(独自算出の注目度): 61.39427407758131
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Online temporal action localization (On-TAL) is the task of identifying multiple action instances given a streaming video. Since existing methods take as input only a video segment of fixed size per iteration, they are limited in considering long-term context and require tuning the segment size carefully. To overcome these limitations, we propose memory-augmented transformer (MATR). MATR utilizes the memory queue that selectively preserves the past segment features, allowing to leverage long-term context for inference. We also propose a novel action localization method that observes the current input segment to predict the end time of the ongoing action and accesses the memory queue to estimate the start time of the action. Our method outperformed existing methods on two datasets, THUMOS14 and MUSES, surpassing not only TAL methods in the online setting but also some offline TAL methods.
- Abstract(参考訳): オンライン時間的アクションローカライゼーション(On-TAL)は、ストリーミングビデオが与えられた複数のアクションインスタンスを特定するタスクである。
既存の手法は、イテレーション毎に一定サイズのビデオセグメントのみを入力とするため、長期的コンテキストを考慮し、セグメントサイズを慎重に調整する必要がある。
これらの制限を克服するため,メモリ拡張トランス (MATR) を提案する。
MATRはメモリキューを利用して過去のセグメントの特徴を選択的に保存し、推論に長期的コンテキストを活用する。
また,現在進行中の動作の終了時刻を予測するために入力セグメントを観測し,メモリキューにアクセスして動作開始時刻を推定する新たな動作ローカライズ手法を提案する。
提案手法は, THUMOS14 と MUSES という2つのデータセット上で既存の手法よりも優れており, オンライン環境での TAL 法だけでなく, オフラインの TAL 法も上回っている。
関連論文リスト
- Efficient Temporal Action Segmentation via Boundary-aware Query Voting [51.92693641176378]
BaFormerは境界対応のTransformerネットワークで、各ビデオセグメントをインスタンストークンとしてトークン化する。
BaFormerは実行時間の6%しか利用せず、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-05-25T00:44:13Z) - O-TALC: Steps Towards Combating Oversegmentation within Online Action Segmentation [0.48748194765816943]
本稿では、バックボーン動作認識モデルのトレーニングと推論を改善する2つの方法を提案する。
まず、トレーニング中の高密度サンプリングを導入し、トレーニングと推論クリップマッチングを容易にし、セグメント境界予測を改善する。
第2に,オンライン推論における過小評価を明示的に低減するオンライン一時認識ラベルクリーニング(O-TALC)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-10T10:36:15Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Per-Clip Video Object Segmentation [110.08925274049409]
近年、メモリベースの手法は、半教師付きビデオオブジェクトセグメンテーションにおいて有望な結果を示している。
映像オブジェクトのセグメンテーションをクリップワイドマスクワイド伝搬として扱う。
本稿では,Clip毎の推論に適した新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T09:02:29Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - TALLFormer: Temporal Action Localization with Long-memory Transformer [16.208160001820044]
TALLFormerは、メモリ効率とエンドツーエンドのトレーニング可能な時間的動作ローカライゼーショントランスフォーマーである。
私たちの長期記憶機構は、トレーニングイテレーション毎に数百の冗長なビデオフレームを処理する必要をなくします。
RGBフレームのみを入力として、TALLFormerは従来の最先端メソッドよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-04-04T17:51:20Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - A Novel Online Action Detection Framework from Untrimmed Video Streams [19.895434487276578]
本稿では,時間的に順序付けられたサブクラスの集合として行動を検出する新しいオンライン行動検出フレームワークを提案する。
提案手法は,映像の長さを変化させることで,人間の行動における高いクラス内変動を学習できるようにする。
論文 参考訳(メタデータ) (2020-03-17T14:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。