論文の概要: Side4Video: Spatial-Temporal Side Network for Memory-Efficient
Image-to-Video Transfer Learning
- arxiv url: http://arxiv.org/abs/2311.15769v1
- Date: Mon, 27 Nov 2023 12:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 15:33:40.734503
- Title: Side4Video: Spatial-Temporal Side Network for Memory-Efficient
Image-to-Video Transfer Learning
- Title(参考訳): Side4Video: メモリ効率の良い画像-映像間伝達学習のための空間時間側ネットワーク
- Authors: Huanjin Yao, Wenhao Wu, Zhiheng Li
- Abstract要約: 訓練済みの大規模なビジョンモデルは、コンピュータビジョンにおいて驚くべき成功を収める。
既存の微調整手法では、トレーニングメモリの使用率や、より大きなモデルをビデオドメインに転送する探索に注意が払われていない。
そこで我々は,Side4Videoというビデオ理解のために,メモリ効率の良い微細調整大型画像モデルのための空間時間側ネットワークを提案する。
- 参考スコア(独自算出の注目度): 47.79321255764455
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large pre-trained vision models achieve impressive success in computer
vision. However, fully fine-tuning large models for downstream tasks,
particularly in video understanding, can be prohibitively computationally
expensive. Recent studies turn their focus towards efficient image-to-video
transfer learning. Nevertheless, existing efficient fine-tuning methods lack
attention to training memory usage and exploration of transferring a larger
model to the video domain. In this paper, we present a novel Spatial-Temporal
Side Network for memory-efficient fine-tuning large image models to video
understanding, named Side4Video. Specifically, we introduce a lightweight
spatial-temporal side network attached to the frozen vision model, which avoids
the backpropagation through the heavy pre-trained model and utilizes
multi-level spatial features from the original image model. Extremely
memory-efficient architecture enables our method to reduce 75% memory usage
than previous adapter-based methods. In this way, we can transfer a huge ViT-E
(4.4B) for video understanding tasks which is 14x larger than ViT-L (304M). Our
approach achieves remarkable performance on various video datasets across
unimodal and cross-modal tasks (i.e., action recognition and text-video
retrieval), especially in Something-Something V1&V2 (67.3% & 74.6%),
Kinetics-400 (88.6%), MSR-VTT (52.3%), MSVD (56.1%) and VATEX (68.8%). We
release our code at https://github.com/HJYao00/Side4Video.
- Abstract(参考訳): 大きな事前訓練されたビジョンモデルは、コンピュータビジョンで素晴らしい成功を収めます。
しかし、下流のタスク、特にビデオ理解において、完全に微調整された大規模モデルは、計算量的に高価である。
最近の研究は、効率的な画像からビデオへの転送学習に焦点をあてている。
それでも、既存の効率的な微調整手法は、トレーニングメモリの使用率や、より大きなモデルをビデオ領域に転送する探索に注意を払わなかった。
本稿では,Side4Videoという,メモリ効率の良い大画面画像モデルのための空間時間側ネットワークを提案する。
具体的には、凍結視覚モデルに付随する軽量な空間時間側ネットワークを導入し、重度事前学習モデルによるバックプロパゲーションを回避し、原画像モデルから多層空間特徴を利用する。
メモリ効率の高いアーキテクチャにより,従来のアダプタ方式に比べて75%のメモリ使用量を削減できる。
このようにして、ビデオ理解タスクに巨大なViT-E(4.4B)を転送することができる。
特に,Something V1&V2 (67.3%, 74.6%), Kinetics-400 (88.6%), MSR-VTT (52.3%), MSVD (56.1%), VATEX (68.8%) では,非モーダルタスクとクロスモーダルタスク(アクション認識とテキストビデオ検索)の様々なビデオデータセットにおいて顕著なパフォーマンスを実現している。
コードはhttps://github.com/hjyao00/side4videoでリリースします。
関連論文リスト
- REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。
我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - Video-LLaVA: Learning United Visual Representation by Alignment Before Projection [27.04277811443469]
Video-LLaVAは、画像とビデオの混合データセットから学習し、相互に強化する。
Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-16T10:59:44Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z) - Space-Time Crop & Attend: Improving Cross-modal Video Representation
Learning [88.71867887257274]
トリミングのような空間拡張はビデオでもうまく機能するが、以前の実装ではうまく機能するのに十分な規模でこれを行うことができなかった。
そこで本研究ではまず,このような拡張をより効率的にシミュレートする手法であるFeature Cropについて紹介する。
第2に,ナイーブ平均プーリングとは対照的に,変圧器に基づく注意性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-03-18T12:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。