論文の概要: MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition
- arxiv url: http://arxiv.org/abs/2201.08383v1
- Date: Thu, 20 Jan 2022 18:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 14:19:13.787701
- Title: MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition
- Title(参考訳): MeMViT: 長期ビデオ認識のためのメモリ拡張型マルチスケール・ビジョン・トランス
- Authors: Chao-Yuan Wu, Yanghao Li, Karttikeya Mangalam, Haoqi Fan, Bo Xiong,
Jitendra Malik, Christoph Feichtenhofer
- Abstract要約: 既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
- 参考スコア(独自算出の注目度): 74.35009770905968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While today's video recognition systems parse snapshots or short clips
accurately, they cannot connect the dots and reason across a longer range of
time yet. Most existing video architectures can only process <5 seconds of a
video without hitting the computation or memory bottlenecks.
In this paper, we propose a new strategy to overcome this challenge. Instead
of trying to process more frames at once like most existing methods, we propose
to process videos in an online fashion and cache "memory" at each iteration.
Through the memory, the model can reference prior context for long-term
modeling, with only a marginal cost. Based on this idea, we build MeMViT, a
Memory-augmented Multiscale Vision Transformer, that has a temporal support 30x
longer than existing models with only 4.5% more compute; traditional methods
need >3,000% more compute to do the same. On a wide range of settings, the
increased temporal support enabled by MeMViT brings large gains in recognition
accuracy consistently. MeMViT obtains state-of-the-art results on the AVA,
EPIC-Kitchens-100 action classification, and action anticipation datasets. Code
and models will be made publicly available.
- Abstract(参考訳): 今日のビデオ認識システムはスナップショットや短いクリップを正確に解析するが、ドットや理由を長い時間にわたって接続することはできない。
既存のビデオアーキテクチャのほとんどは、計算やメモリのボトルネックにぶつかることなく、ビデオの5秒間しか処理できない。
本稿では,この課題を克服するための新しい戦略を提案する。
既存の手法と同様に、より多くのフレームを一度に処理するのではなく、オンラインの方法で動画を処理し、各イテレーションで"メモリ"をキャッシュすることを提案します。
メモリを通じて、モデルが長期モデリングの事前コンテキストを参照できるのは、限界コストのみである。
このアイデアに基づいて、メモリ拡張マルチスケール・ビジョン・トランスフォーマーであるMeMViTを構築し、従来の4.5%以上の計算量を持つ既存のモデルよりも30倍の時間的サポートを持つ。
幅広い設定において、MeMViTによる時間的サポートの増加は、認識精度を継続的に向上させる。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
コードとモデルは公開される予定だ。
関連論文リスト
- Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Side4Video: Spatial-Temporal Side Network for Memory-Efficient
Image-to-Video Transfer Learning [47.79321255764455]
訓練済みの大規模なビジョンモデルは、コンピュータビジョンにおいて驚くべき成功を収める。
既存の微調整手法では、トレーニングメモリの使用率や、より大きなモデルをビデオドメインに転送する探索に注意が払われていない。
そこで我々は,Side4Videoというビデオ理解のために,メモリ効率の良い微細調整大型画像モデルのための空間時間側ネットワークを提案する。
論文 参考訳(メタデータ) (2023-11-27T12:39:42Z) - Memory Efficient Temporal & Visual Graph Model for Unsupervised Video
Domain Adaptation [50.158454960223274]
既存のビデオドメイン適応(DA)手法は、ビデオフレームの時間的組み合わせを全て格納するか、ソースとターゲットのビデオをペアにする必要がある。
本稿では,メモリ効率の高いグラフベースビデオDA手法を提案する。
論文 参考訳(メタデータ) (2022-08-13T02:56:10Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - TALLFormer: Temporal Action Localization with Long-memory Transformer [16.208160001820044]
TALLFormerは、メモリ効率とエンドツーエンドのトレーニング可能な時間的動作ローカライゼーショントランスフォーマーである。
私たちの長期記憶機構は、トレーニングイテレーション毎に数百の冗長なビデオフレームを処理する必要をなくします。
RGBフレームのみを入力として、TALLFormerは従来の最先端メソッドよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-04-04T17:51:20Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。