論文の概要: TRecViT: A Recurrent Video Transformer
- arxiv url: http://arxiv.org/abs/2412.14294v1
- Date: Wed, 18 Dec 2024 19:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:53.924074
- Title: TRecViT: A Recurrent Video Transformer
- Title(参考訳): TRecViT:リカレントビデオトランス
- Authors: Viorica Pătrăucean, Xu Owen He, Joseph Heyward, Chuhan Zhang, Mehdi S. M. Sajjadi, George-Cristian Muraru, Artem Zholus, Mahdi Karami, Ross Goroshin, Yutian Chen, Simon Osindero, João Carreira, Razvan Pascanu,
- Abstract要約: ビデオモデリングのための新しいブロックを提案する。
ゲート線形単位(LRU)は時間とともに情報を混合し、自己注意層は空間上で混合し、チャネル上で再帰する。
結果として得られたアーキテクチャTRecViTは、教師付きまたは自己監督型で訓練された疎密なタスクでうまく機能する。
- 参考スコア(独自算出の注目度): 31.24611673482246
- License:
- Abstract: We propose a novel block for video modelling. It relies on a time-space-channel factorisation with dedicated blocks for each dimension: gated linear recurrent units (LRUs) perform information mixing over time, self-attention layers perform mixing over space, and MLPs over channels. The resulting architecture TRecViT performs well on sparse and dense tasks, trained in supervised or self-supervised regimes. Notably, our model is causal and outperforms or is on par with a pure attention model ViViT-L on large scale video datasets (SSv2, Kinetics400), while having $3\times$ less parameters, $12\times$ smaller memory footprint, and $5\times$ lower FLOPs count. Code and checkpoints will be made available online at https://github.com/google-deepmind/trecvit.
- Abstract(参考訳): ビデオモデリングのための新しいブロックを提案する。
ゲート線形リカレントユニット(LRU)は時間とともに情報を混合し、自己保持層は空間上で混合し、MLPはチャネル上で混合する。
結果として得られたアーキテクチャTRecViTは、教師付きまたは自己監督型で訓練された疎密なタスクでうまく機能する。
特に,我々のモデルは,大規模ビデオデータセット(SSv2, Kinetics400)上の純粋注意モデルViViT-Lと同等か,因果的に優れていますが,パラメータが3ドル,メモリフットプリントが12ドル,FLOPが5ドルです。
コードとチェックポイントはhttps://github.com/google-deepmind/trecvit.comで公開されている。
関連論文リスト
- ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
長時間ビデオ理解のための時間的視覚的冗長性と知識的冗長性を両立させるトレーニングフリー手法である$bfReTaKe$を導入する。
DPSelectは、人間の映像知覚と密接に一致している視覚的特徴に基づいて、局所的な最大ピーク距離を持つビデオを特定する。
PivotKVはピボットとしてVideoBenchsを使用し、注意スコアの低い非テキストトークンに対してKVキャッシュ圧縮を実行する。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - QUEEN: QUantized Efficient ENcoding of Dynamic Gaussians for Streaming Free-viewpoint Videos [42.554100586090826]
オンライン無料視点ビデオ(FVV)ストリーミングは、比較的未調査の課題である。
本稿では,3次元ガウス演算を用いたFVVストリーミングのためのQUantized and Efficient ENcodingのための新しいフレームワークを提案する。
さらに,ガウス位置以外の残差を効果的に定量化するための学習された潜在復号器を含む量子化スパーリティフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T18:59:55Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding [38.60950616529459]
我々は,ビデオシーケンスの時間軸をチャネル次元に絞り込み,モバイルビデオ理解のための軽量なビデオ認識ネットワークであるtextitSqueezeTime を提案する。
提案されているSqueezeTimeは、非常に軽量で高速で、モバイルビデオ理解の精度が高い。
論文 参考訳(メタデータ) (2024-05-14T06:32:40Z) - $R^2$-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding [41.69321731689751]
ビデオの時間的グラウンドは、自然言語のクェリが与えられたビデオに関連性のあるクリップを埋めることを目的としている。
既存のVTGモデルは、フレームワイドのファイナルレイヤCLIP機能に基づいて構築されており、追加の時間バックボーンによって支援されている。
ビデオ時間的グラウンド化のためのパラメータとメモリ効率の変換学習フレームワークであるReversed Recurrent Tuning(R2$-Tuning)を提案する。
論文 参考訳(メタデータ) (2024-03-31T21:17:48Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - Long Movie Clip Classification with State-Space Video Models [14.46525612314649]
ViS4merは、自己アテンションと構造化状態空間シーケンス(S4)の強度を組み合わせた効率的な長距離ビデオモデルである。
本モデルでは,短距離時空間特徴抽出のための標準トランスフォーマーエンコーダと,その後の長距離時空間推論のためのマルチスケール時空間S4デコーダを用いる。
ViS4merは2.63倍高速で、それに対応する純粋な自己保持型モデルよりも8ドル安いメモリを必要とする。
論文 参考訳(メタデータ) (2022-04-04T17:58:02Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z) - VidTr: Video Transformer Without Convolutions [32.710988574799735]
時間的映像分類のための分離アテンション付きビデオトランスフォーマー(VidTr)を導入する。
VidTrは、スタックされた注意を通して時間情報を集約し、より高い効率でパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-04-23T17:59:01Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - VA-RED$^2$: Video Adaptive Redundancy Reduction [64.75692128294175]
我々は,入力依存の冗長性低減フレームワークva-red$2$を提案する。
ネットワークの重み付けと協調して適応ポリシーを共有重み付け機構を用いて微分可能な方法で学習する。
私たちのフレームワークは、最先端の方法と比較して、計算(FLOP)の20% - 40%$削減を達成します。
論文 参考訳(メタデータ) (2021-02-15T22:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。