Fugu-MT 論文翻訳(概要): TALLFormer: Temporal Action Localization with Long-memory Transformer

論文の概要: TALLFormer: Temporal Action Localization with Long-memory Transformer

arxiv url: http://arxiv.org/abs/2204.01680v1
Date: Mon, 4 Apr 2022 17:51:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-05 16:54:57.077693
Title: TALLFormer: Temporal Action Localization with Long-memory Transformer
Title（参考訳）: TALLFormer: 長期記憶変換器を用いた時間的アクションローカライゼーション
Authors: Feng Cheng, Gedas Bertasius
Abstract要約: TALLFormerは、メモリ効率とエンドツーエンドのトレーニング可能な時間的動作ローカライゼーショントランスフォーマーである。私たちの長期記憶機構は、トレーニングイテレーション毎に数百の冗長なビデオフレームを処理する必要をなくします。 RGBフレームのみを入力として、TALLFormerは従来の最先端メソッドよりも大きなマージンで優れている。
参考スコア（独自算出の注目度）: 16.208160001820044
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most modern approaches in temporal action localization divide this problem into two parts: (i) short-term feature extraction and (ii) long-range temporal boundary localization. Due to the high GPU memory cost caused by processing long untrimmed videos, many methods sacrifice the representational power of the short-term feature extractor by either freezing the backbone or using a very small spatial video resolution. This issue becomes even worse with the recent video transformer models, many of which have quadratic memory complexity. To address these issues, we propose TALLFormer, a memory-efficient and end-to-end trainable Temporal Action Localization transformer with Long-term memory. Our long-term memory mechanism eliminates the need for processing hundreds of redundant video frames during each training iteration, thus, significantly reducing the GPU memory consumption and training time. These efficiency savings allow us (i) to use a powerful video transformer-based feature extractor without freezing the backbone or reducing the spatial video resolution, while (ii) also maintaining long-range temporal boundary localization capability. With only RGB frames as input and no external action recognition classifier, TALLFormer outperforms previous state-of-the-art methods by a large margin, achieving an average mAP of 59.1% on THUMOS14 and 35.6% on ActivityNet-1.3. The code will be available in https://github.com/klauscc/TALLFormer.
Abstract（参考訳）: 時間的行動ローカライゼーションにおける現代のほとんどのアプローチは、この問題を2つに分けている。 (i)短期的特徴抽出及び (ii) 長距離時間境界の定位。長い未トリミングビデオの処理による高GPUメモリコストのため、バックボーンを凍結するか、非常に小さな空間ビデオ解像度を使用することで、短期的特徴抽出器の表現力を犠牲にする手法が多い。この問題は、最近のビデオトランスフォーマーモデルでさらに悪化する。そこで本研究では,メモリ効率が高く,エンドツーエンドにトレーニング可能な時間的動作定位トランスフォーマである tallformer を提案する。我々の長期記憶機構は、トレーニングイテレーション毎に数百の冗長なビデオフレームを処理する必要をなくし、GPUメモリの消費とトレーニング時間を著しく削減する。これらの効率の節約によって (i)バックボーンを凍結したり空間解像度を低下させることなく、強力なビデオトランスフォーマベースの特徴抽出器を使用する。 (ii) 長距離時間境界定位能力も維持する。 RGBフレームのみを入力とし、外部のアクション認識分類器がないため、TALLFormerは従来の最先端の手法を大きなマージンで上回り、THUMOS14では平均59.1%、ActivityNet-1.3では35.6%を達成した。コードはhttps://github.com/klauscc/tallformerで入手できる。

関連論文リスト

Representing Long Volumetric Video with Temporal Gaussian Hierarchy [80.51373034419379]
本稿では,多視点RGBビデオから長いボリューム映像を再構成することの課題を解決することを目的とする。本稿では,テンポラルガウス階層(Temporal Gaussian Hierarchy)と呼ばれる新しい4次元表現を提案する。この研究は、最先端のレンダリング品質を維持しながら、ボリュームビデオデータの分を効率的に処理できる最初のアプローチである。
論文参考訳（メタデータ） (2024-12-12T18:59:34Z)
Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文参考訳（メタデータ） (2024-11-29T04:12:13Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)
Online Temporal Action Localization with Memory-Augmented Transformer [61.39427407758131]
オンライン時間的行動ローカライゼーションのためのメモリ拡張変換器(MATR)を提案する。 MATRは過去のセグメントの特徴を選択的に保存し、推論に長期的コンテキストを活用する。また,現在進行中の動作の終了時刻を予測するために入力セグメントを観測し,メモリキューにアクセスして動作開始時刻を推定する新たな動作ローカライズ手法を提案する。
論文参考訳（メタデータ） (2024-08-06T04:55:33Z)
Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文参考訳（メタデータ） (2024-03-26T17:59:58Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
READMem: Robust Embedding Association for a Diverse Memory in Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文参考訳（メタデータ） (2023-05-22T08:31:16Z)
Robust and Efficient Memory Network for Video Object Segmentation [6.7995672846437305]
本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)研究のためのロバストかつ効率的なメモリネットワーク(REMN)を提案する。我々は,前景の物体の特徴を前景のマスクで高めることにより,背景の乱れに対処する局所的な注意機構を導入する。実験によると、我々のREMNはDAVIS 2017で最先端の結果を達成しており、$mathcalJ&F$スコアは86.3%、YouTube-VOS 2018では$mathcalG$平均85.5%である。
論文参考訳（メタデータ） (2023-04-24T06:19:21Z)
XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。 XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文参考訳（メタデータ） (2022-07-14T17:59:37Z)
MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。 MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文参考訳（メタデータ） (2022-01-20T18:59:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。