論文の概要: TALLFormer: Temporal Action Localization with Long-memory Transformer
- arxiv url: http://arxiv.org/abs/2204.01680v1
- Date: Mon, 4 Apr 2022 17:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 16:54:57.077693
- Title: TALLFormer: Temporal Action Localization with Long-memory Transformer
- Title(参考訳): TALLFormer: 長期記憶変換器を用いた時間的アクションローカライゼーション
- Authors: Feng Cheng, Gedas Bertasius
- Abstract要約: TALLFormerは、メモリ効率とエンドツーエンドのトレーニング可能な時間的動作ローカライゼーショントランスフォーマーである。
私たちの長期記憶機構は、トレーニングイテレーション毎に数百の冗長なビデオフレームを処理する必要をなくします。
RGBフレームのみを入力として、TALLFormerは従来の最先端メソッドよりも大きなマージンで優れている。
- 参考スコア(独自算出の注目度): 16.208160001820044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most modern approaches in temporal action localization divide this problem
into two parts: (i) short-term feature extraction and (ii) long-range temporal
boundary localization. Due to the high GPU memory cost caused by processing
long untrimmed videos, many methods sacrifice the representational power of the
short-term feature extractor by either freezing the backbone or using a very
small spatial video resolution. This issue becomes even worse with the recent
video transformer models, many of which have quadratic memory complexity. To
address these issues, we propose TALLFormer, a memory-efficient and end-to-end
trainable Temporal Action Localization transformer with Long-term memory. Our
long-term memory mechanism eliminates the need for processing hundreds of
redundant video frames during each training iteration, thus, significantly
reducing the GPU memory consumption and training time. These efficiency savings
allow us (i) to use a powerful video transformer-based feature extractor
without freezing the backbone or reducing the spatial video resolution, while
(ii) also maintaining long-range temporal boundary localization capability.
With only RGB frames as input and no external action recognition classifier,
TALLFormer outperforms previous state-of-the-art methods by a large margin,
achieving an average mAP of 59.1% on THUMOS14 and 35.6% on ActivityNet-1.3. The
code will be available in https://github.com/klauscc/TALLFormer.
- Abstract(参考訳): 時間的行動ローカライゼーションにおける現代のほとんどのアプローチは、この問題を2つに分けている。
(i)短期的特徴抽出及び
(ii) 長距離時間境界の定位。
長い未トリミングビデオの処理による高GPUメモリコストのため、バックボーンを凍結するか、非常に小さな空間ビデオ解像度を使用することで、短期的特徴抽出器の表現力を犠牲にする手法が多い。
この問題は、最近のビデオトランスフォーマーモデルでさらに悪化する。
そこで本研究では,メモリ効率が高く,エンドツーエンドにトレーニング可能な時間的動作定位トランスフォーマである tallformer を提案する。
我々の長期記憶機構は、トレーニングイテレーション毎に数百の冗長なビデオフレームを処理する必要をなくし、GPUメモリの消費とトレーニング時間を著しく削減する。
これらの効率の節約によって
(i)バックボーンを凍結したり空間解像度を低下させることなく、強力なビデオトランスフォーマベースの特徴抽出器を使用する。
(ii) 長距離時間境界定位能力も維持する。
RGBフレームのみを入力とし、外部のアクション認識分類器がないため、TALLFormerは従来の最先端の手法を大きなマージンで上回り、THUMOS14では平均59.1%、ActivityNet-1.3では35.6%を達成した。
コードはhttps://github.com/klauscc/tallformerで入手できる。
関連論文リスト
- LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Online Temporal Action Localization with Memory-Augmented Transformer [61.39427407758131]
オンライン時間的行動ローカライゼーションのためのメモリ拡張変換器(MATR)を提案する。
MATRは過去のセグメントの特徴を選択的に保存し、推論に長期的コンテキストを活用する。
また,現在進行中の動作の終了時刻を予測するために入力セグメントを観測し,メモリキューにアクセスして動作開始時刻を推定する新たな動作ローカライズ手法を提案する。
論文 参考訳(メタデータ) (2024-08-06T04:55:33Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - READMem: Robust Embedding Association for a Diverse Memory in
Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。
本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。
提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T08:31:16Z) - Robust and Efficient Memory Network for Video Object Segmentation [6.7995672846437305]
本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)研究のためのロバストかつ効率的なメモリネットワーク(REMN)を提案する。
我々は,前景の物体の特徴を前景のマスクで高めることにより,背景の乱れに対処する局所的な注意機構を導入する。
実験によると、我々のREMNはDAVIS 2017で最先端の結果を達成しており、$mathcalJ&F$スコアは86.3%、YouTube-VOS 2018では$mathcalG$平均85.5%である。
論文 参考訳(メタデータ) (2023-04-24T06:19:21Z) - XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin
Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。
独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。
XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文 参考訳(メタデータ) (2022-07-14T17:59:37Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。