論文の概要: Motion Guided Token Compression for Efficient Masked Video Modeling
- arxiv url: http://arxiv.org/abs/2402.18577v1
- Date: Wed, 10 Jan 2024 07:49:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 08:46:38.663313
- Title: Motion Guided Token Compression for Efficient Masked Video Modeling
- Title(参考訳): 効率的なマスク映像モデリングのためのモーションガイドトケン圧縮
- Authors: Yukun Feng, Yangming Shi, Fengze Liu, Tan Yan,
- Abstract要約: 本稿では,フレーム毎秒(FPS)レートのエスカレーションによって達成された性能について述べる。
我々はまた、より小さいがより代表的なトークンセットを包括的ビデオ表現に活用するために、Transformerモデルに力を与える新しいアプローチ、Motion Guided Token Compression (MGTC)を提案する。
ビデオ認識データセットであるKinetics-400, UCF101, HMDB51を用いて, FPSレートの上昇により, 1.6, 1.6, 4.0以上の有意なTop-1精度が向上することが実証された。
- 参考スコア(独自算出の注目度): 7.548789718676737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments in Transformers have achieved notable strides in enhancing video comprehension. Nonetheless, the O($N^2$) computation complexity associated with attention mechanisms presents substantial computational hurdles when dealing with the high dimensionality of videos. This challenge becomes particularly pronounced when striving to increase the frames per second (FPS) to enhance the motion capturing capabilities. Such a pursuit is likely to introduce redundancy and exacerbate the existing computational limitations. In this paper, we initiate by showcasing the enhanced performance achieved through an escalation in the FPS rate. Additionally, we present a novel approach, Motion Guided Token Compression (MGTC), to empower Transformer models to utilize a smaller yet more representative set of tokens for comprehensive video representation. Consequently, this yields substantial reductions in computational burden and remains seamlessly adaptable to increased FPS rates. Specifically, we draw inspiration from video compression algorithms and scrutinize the variance between patches in consecutive video frames across the temporal dimension. The tokens exhibiting a disparity below a predetermined threshold are then masked. Notably, this masking strategy effectively addresses video redundancy while conserving essential information. Our experiments, conducted on widely examined video recognition datasets, Kinetics-400, UCF101 and HMDB51, demonstrate that elevating the FPS rate results in a significant top-1 accuracy score improvement of over 1.6, 1.6 and 4.0. By implementing MGTC with the masking ratio of 25\%, we further augment accuracy by 0.1 and simultaneously reduce computational costs by over 31\% on Kinetics-400. Even within a fixed computational budget, higher FPS rates paired with MGTC sustain performance gains when compared to lower FPS settings.
- Abstract(参考訳): 近年のトランスフォーマーの発展は、映像理解の強化において顕著な進歩を遂げている。
それでも、注意機構に関連したO($N^2$)計算の複雑さは、ビデオの高次元性を扱う際にかなりの計算ハードルをもたらす。
この課題は、モーションキャプチャ機能を強化するために、毎秒フレームを増やす(FPS)ときに特に顕著になる。
このような追求は、冗長性を導入し、既存の計算制限を悪化させる可能性がある。
本稿では,FPSレートのエスカレーションにより達成された性能向上を示す。
さらに,トランスフォーマーモデルに対して,より小さいがより代表的なトークンセットを包括的ビデオ表現に活用するための新しいアプローチであるMotion Guided Token Compression(MGTC)を提案する。
これにより計算負荷が大幅に削減され、FPSの上昇にシームレスに適応できる。
具体的には、ビデオ圧縮アルゴリズムからインスピレーションを得て、時間次元の連続するビデオフレームにおけるパッチ間のばらつきを精査する。
そして、所定の閾値未満の格差を示すトークンをマスクする。
特に、このマスキング戦略は、重要な情報を保持しながら、映像の冗長性を効果的に解決する。
ビデオ認識データセットであるKinetics-400, UCF101, HMDB51を用いて, FPSレートの上昇により, 1.6, 1.6, 4.0以上の有意なTop-1精度が向上することが実証された。
マスク比25\%でMGTCを実装することにより、さらに精度を0.1向上させ、Kinetics-400では計算コストを31\%以上削減する。
計算予算が固定された場合でも、MGTCと組み合わせた高いFPSレートは、低いFPS設定と比較してパフォーマンスが向上する。
関連論文リスト
- Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - HaltingVT: Adaptive Token Halting Transformer for Efficient Video
Recognition [11.362605513514943]
ビデオにおけるアクション認識は、高い計算コストのために課題となる。
本稿では、冗長なビデオパッチトークンを適応的に除去する効率的なビデオトランスフォーマーであるHaltingVTを提案する。
Mini-Kineticsデータセットでは、24.2 GFLOPで75.0%のTop-1ACC、9.9 GFLOPで67.2%のTop-1ACCを達成しました。
論文 参考訳(メタデータ) (2024-01-10T07:42:55Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - SVT: Supertoken Video Transformer for Efficient Video Understanding [22.357170476500944]
本稿では,SPM(Semantic Pooling Module)を組み込んだSVT(Supertoken Video Transformer)を提案する。
提案手法は,類似のセマンティクスで潜在表現をマージすることで冗長性を効果的に低減し,下流タスクに対する有能な情報の割合を増大させることができる。
論文 参考訳(メタデータ) (2023-04-01T14:31:56Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant
Spatiotemporal Tokens [62.65545751117208]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。