論文の概要: LoSA: Long-Short-range Adapter for Scaling End-to-End Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2404.01282v2
- Date: Tue, 6 Aug 2024 17:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 19:02:36.782592
- Title: LoSA: Long-Short-range Adapter for Scaling End-to-End Temporal Action Localization
- Title(参考訳): LoSA: エンド・ツー・エンド時空間動作ローカライゼーションのための長距離適応器
- Authors: Akshita Gupta, Gaurav Mittal, Ahmed Magooda, Ye Yu, Graham W. Taylor, Mei Chen,
- Abstract要約: TALには、未トリミングビデオ中のアクションスニペットのローカライズと分類が含まれる。
LoSAはTAL用に設計された最初のメモリ・アンド・パラメータ効率のバックボーンアダプタである。
LoSAは、ビデオバックボーンの中間層を異なる時間範囲に適応させるLong-Short-range Adapterを導入することでTALを特化している。
- 参考スコア(独自算出の注目度): 24.566111809860264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal Action Localization (TAL) involves localizing and classifying action snippets in an untrimmed video. The emergence of large video foundation models has led RGB-only video backbones to outperform previous methods needing both RGB and optical flow modalities. Leveraging these large models is often limited to training only the TAL head due to the prohibitively large GPU memory required to adapt the video backbone for TAL. To overcome this limitation, we introduce LoSA, the first memory-and-parameter-efficient backbone adapter designed specifically for TAL to handle untrimmed videos. LoSA specializes for TAL by introducing Long-Short-range Adapters that adapt the intermediate layers of the video backbone over different temporal ranges. These adapters run parallel to the video backbone to significantly reduce memory footprint. LoSA also includes Long-Short-range Gated Fusion that strategically combines the output of these adapters from the video backbone layers to enhance the video features provided to the TAL head. Experiments show that LoSA significantly outperforms all existing methods on standard TAL benchmarks, THUMOS-14 and ActivityNet-v1.3, by scaling end-to-end backbone adaptation to billion-parameter-plus models like VideoMAEv2~(ViT-g) and leveraging them beyond head-only transfer learning.
- Abstract(参考訳): 時間的アクションローカライゼーション(TAL)は、未トリミングビデオ中のアクションスニペットのローカライズと分類を含む。
大規模なビデオ基盤モデルの出現により、RGBのみのビデオバックボーンは、RGBと光フローのモダリティの両方を必要とする従来の手法より優れている。
これらの大きなモデルの活用は、ビデオバックボーンをTALに適応させるのに必要な、非常に大きなGPUメモリのため、TALヘッドのみのトレーニングに制限されることが多い。
この制限を克服するため,最初のメモリ/パラメータ効率のバックボーンアダプタであるLoSAを導入する。
LoSAは、ビデオバックボーンの中間層を異なる時間範囲に適応させるLong-Short-range Adapterを導入することでTALを特化している。
これらのアダプタはビデオバックボーンと並列に動作し、メモリフットプリントを大幅に削減する。
LoSAには、ビデオバックボーン層からこれらのアダプタの出力を戦略的に組み合わせ、TALヘッドに提供されるビデオ機能を強化するLong-Short-range Gated Fusionも含まれている。
実験の結果、LoSA は標準的なTALベンチマーク THUMOS-14 や ActivityNet-v1.3 で、ビデオMAEv2~(ViT-g) のような数十億パラメータ超過モデルへのエンドツーエンドのバックボーン適応を拡大し、ヘッドオンリーのトランスファー学習を超えてそれらを活用することによって、既存のメソッド全てを著しく上回っていることがわかった。
関連論文リスト
- LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - READMem: Robust Embedding Association for a Diverse Memory in
Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。
本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。
提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T08:31:16Z) - Recurrent Video Restoration Transformer with Guided Deformable Attention [116.1684355529431]
本稿では,グローバルなリカレントフレームワーク内で,隣接するフレームを並列に処理するRVRTを提案する。
RVRTは、バランスの取れたモデルサイズ、メモリとランタイムをテストするベンチマークデータセット上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-05T10:36:09Z) - TALLFormer: Temporal Action Localization with Long-memory Transformer [16.208160001820044]
TALLFormerは、メモリ効率とエンドツーエンドのトレーニング可能な時間的動作ローカライゼーショントランスフォーマーである。
私たちの長期記憶機構は、トレーニングイテレーション毎に数百の冗長なビデオフレームを処理する必要をなくします。
RGBフレームのみを入力として、TALLFormerは従来の最先端メソッドよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-04-04T17:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。