Fugu-MT 論文翻訳(概要): MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition

論文の概要: MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition

arxiv url: http://arxiv.org/abs/2201.08383v1
Date: Thu, 20 Jan 2022 18:59:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-21 14:19:13.787701
Title: MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition
Title（参考訳）: MeMViT: 長期ビデオ認識のためのメモリ拡張型マルチスケール・ビジョン・トランス
Authors: Chao-Yuan Wu, Yanghao Li, Karttikeya Mangalam, Haoqi Fan, Bo Xiong, Jitendra Malik, Christoph Feichtenhofer
Abstract要約: 既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。 MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
参考スコア（独自算出の注目度）: 74.35009770905968
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While today's video recognition systems parse snapshots or short clips accurately, they cannot connect the dots and reason across a longer range of time yet. Most existing video architectures can only process <5 seconds of a video without hitting the computation or memory bottlenecks. In this paper, we propose a new strategy to overcome this challenge. Instead of trying to process more frames at once like most existing methods, we propose to process videos in an online fashion and cache "memory" at each iteration. Through the memory, the model can reference prior context for long-term modeling, with only a marginal cost. Based on this idea, we build MeMViT, a Memory-augmented Multiscale Vision Transformer, that has a temporal support 30x longer than existing models with only 4.5% more compute; traditional methods need >3,000% more compute to do the same. On a wide range of settings, the increased temporal support enabled by MeMViT brings large gains in recognition accuracy consistently. MeMViT obtains state-of-the-art results on the AVA, EPIC-Kitchens-100 action classification, and action anticipation datasets. Code and models will be made publicly available.
Abstract（参考訳）: 今日のビデオ認識システムはスナップショットや短いクリップを正確に解析するが、ドットや理由を長い時間にわたって接続することはできない。既存のビデオアーキテクチャのほとんどは、計算やメモリのボトルネックにぶつかることなく、ビデオの5秒間しか処理できない。本稿では,この課題を克服するための新しい戦略を提案する。既存の手法と同様に、より多くのフレームを一度に処理するのではなく、オンラインの方法で動画を処理し、各イテレーションで"メモリ"をキャッシュすることを提案します。メモリを通じて、モデルが長期モデリングの事前コンテキストを参照できるのは、限界コストのみである。このアイデアに基づいて、メモリ拡張マルチスケール・ビジョン・トランスフォーマーであるMeMViTを構築し、従来の4.5%以上の計算量を持つ既存のモデルよりも30倍の時間的サポートを持つ。幅広い設定において、MeMViTによる時間的サポートの増加は、認識精度を継続的に向上させる。 MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。コードとモデルは公開される予定だ。

関連論文リスト

Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文参考訳（メタデータ） (2024-11-29T04:12:13Z)
VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。 SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文参考訳（メタデータ） (2024-09-02T08:52:58Z)
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2024-04-08T17:59:24Z)
Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文参考訳（メタデータ） (2024-03-26T17:59:58Z)
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文参考訳（メタデータ） (2024-02-22T18:55:08Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
Memory Efficient Temporal & Visual Graph Model for Unsupervised Video Domain Adaptation [50.158454960223274]
既存のビデオドメイン適応(DA)手法は、ビデオフレームの時間的組み合わせを全て格納するか、ソースとターゲットのビデオをペアにする必要がある。本稿では,メモリ効率の高いグラフベースビデオDA手法を提案する。
論文参考訳（メタデータ） (2022-08-13T02:56:10Z)
TALLFormer: Temporal Action Localization with Long-memory Transformer [16.208160001820044]
TALLFormerは、メモリ効率とエンドツーエンドのトレーニング可能な時間的動作ローカライゼーショントランスフォーマーである。私たちの長期記憶機構は、トレーニングイテレーション毎に数百の冗長なビデオフレームを処理する必要をなくします。 RGBフレームのみを入力として、TALLFormerは従来の最先端メソッドよりも大きなマージンで優れている。
論文参考訳（メタデータ） (2022-04-04T17:51:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。