Fugu-MT 論文翻訳(概要): Motion Guided Token Compression for Efficient Masked Video Modeling

論文の概要: Motion Guided Token Compression for Efficient Masked Video Modeling

arxiv url: http://arxiv.org/abs/2402.18577v1
Date: Wed, 10 Jan 2024 07:49:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 08:46:38.663313
Title: Motion Guided Token Compression for Efficient Masked Video Modeling
Title（参考訳）: 効率的なマスク映像モデリングのためのモーションガイドトケン圧縮
Authors: Yukun Feng, Yangming Shi, Fengze Liu, Tan Yan,
Abstract要約: 本稿では,フレーム毎秒(FPS)レートのエスカレーションによって達成された性能について述べる。我々はまた、より小さいがより代表的なトークンセットを包括的ビデオ表現に活用するために、Transformerモデルに力を与える新しいアプローチ、Motion Guided Token Compression (MGTC)を提案する。ビデオ認識データセットであるKinetics-400, UCF101, HMDB51を用いて, FPSレートの上昇により, 1.6, 1.6, 4.0以上の有意なTop-1精度が向上することが実証された。
参考スコア（独自算出の注目度）: 7.548789718676737
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent developments in Transformers have achieved notable strides in enhancing video comprehension. Nonetheless, the O($N^2$) computation complexity associated with attention mechanisms presents substantial computational hurdles when dealing with the high dimensionality of videos. This challenge becomes particularly pronounced when striving to increase the frames per second (FPS) to enhance the motion capturing capabilities. Such a pursuit is likely to introduce redundancy and exacerbate the existing computational limitations. In this paper, we initiate by showcasing the enhanced performance achieved through an escalation in the FPS rate. Additionally, we present a novel approach, Motion Guided Token Compression (MGTC), to empower Transformer models to utilize a smaller yet more representative set of tokens for comprehensive video representation. Consequently, this yields substantial reductions in computational burden and remains seamlessly adaptable to increased FPS rates. Specifically, we draw inspiration from video compression algorithms and scrutinize the variance between patches in consecutive video frames across the temporal dimension. The tokens exhibiting a disparity below a predetermined threshold are then masked. Notably, this masking strategy effectively addresses video redundancy while conserving essential information. Our experiments, conducted on widely examined video recognition datasets, Kinetics-400, UCF101 and HMDB51, demonstrate that elevating the FPS rate results in a significant top-1 accuracy score improvement of over 1.6, 1.6 and 4.0. By implementing MGTC with the masking ratio of 25\%, we further augment accuracy by 0.1 and simultaneously reduce computational costs by over 31\% on Kinetics-400. Even within a fixed computational budget, higher FPS rates paired with MGTC sustain performance gains when compared to lower FPS settings.
Abstract（参考訳）: 近年のトランスフォーマーの発展は、映像理解の強化において顕著な進歩を遂げている。それでも、注意機構に関連したO($N^2$)計算の複雑さは、ビデオの高次元性を扱う際にかなりの計算ハードルをもたらす。この課題は、モーションキャプチャ機能を強化するために、毎秒フレームを増やす(FPS)ときに特に顕著になる。このような追求は、冗長性を導入し、既存の計算制限を悪化させる可能性がある。本稿では,FPSレートのエスカレーションにより達成された性能向上を示す。さらに,トランスフォーマーモデルに対して,より小さいがより代表的なトークンセットを包括的ビデオ表現に活用するための新しいアプローチであるMotion Guided Token Compression(MGTC)を提案する。これにより計算負荷が大幅に削減され、FPSの上昇にシームレスに適応できる。具体的には、ビデオ圧縮アルゴリズムからインスピレーションを得て、時間次元の連続するビデオフレームにおけるパッチ間のばらつきを精査する。そして、所定の閾値未満の格差を示すトークンをマスクする。特に、このマスキング戦略は、重要な情報を保持しながら、映像の冗長性を効果的に解決する。ビデオ認識データセットであるKinetics-400, UCF101, HMDB51を用いて, FPSレートの上昇により, 1.6, 1.6, 4.0以上の有意なTop-1精度が向上することが実証された。マスク比25\%でMGTCを実装することにより、さらに精度を0.1向上させ、Kinetics-400では計算コストを31\%以上削減する。計算予算が固定された場合でも、MGTCと組み合わせた高いFPSレートは、低いFPS設定と比較してパフォーマンスが向上する。

関連論文リスト

Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文参考訳（メタデータ） (2025-02-20T18:45:44Z)
Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文参考訳（メタデータ） (2024-11-04T18:59:44Z)
SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。 SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文参考訳（メタデータ） (2024-10-28T07:13:25Z)
MaskVD: Region Masking for Efficient Video Object Detection [11.759503235646696]
ビデオタスクは計算量が多く、リアルタイムアプリケーションにデプロイする際の課題となる。本稿では,ビデオフレームにおけるマスキング領域の戦略を提案する。以前のフレームから抽出した特徴を活用することで、ViTバックボーンはリージョンマスキングの恩恵を直接受けられる。
論文参考訳（メタデータ） (2024-07-16T08:01:49Z)
Ada-VE: Training-Free Consistent Video Editing Using Adaptive Motion Prior [13.595032265551184]
ビデオ間合成は、キャラクタ一貫性の維持、スムーズな時間遷移、高速動作時の視覚的品質の維持において大きな課題となる。本稿では,冗長計算を選択的に削減する適応型動き誘導型クロスフレームアテンション機構を提案する。これにより、同じ計算予算内でより多くのフレームにクロスフレームの注意を向けることができる。
論文参考訳（メタデータ） (2024-06-07T12:12:25Z)
HaltingVT: Adaptive Token Halting Transformer for Efficient Video Recognition [11.362605513514943]
ビデオにおけるアクション認識は、高い計算コストのために課題となる。本稿では、冗長なビデオパッチトークンを適応的に除去する効率的なビデオトランスフォーマーであるHaltingVTを提案する。 Mini-Kineticsデータセットでは、24.2 GFLOPで75.0%のTop-1ACC、9.9 GFLOPで67.2%のTop-1ACCを達成しました。
論文参考訳（メタデータ） (2024-01-10T07:42:55Z)
Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。 WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文参考訳（メタデータ） (2023-09-07T06:41:15Z)
SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文参考訳（メタデータ） (2022-11-23T18:58:42Z)
EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文参考訳（メタデータ） (2022-11-19T09:57:01Z)
It Takes Two: Masked Appearance-Motion Modeling for Self-supervised Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文参考訳（メタデータ） (2022-10-11T08:05:18Z)
Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文参考訳（メタデータ） (2021-06-10T17:59:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。