論文の概要: Advancing Video Self-Supervised Learning via Image Foundation Models
- arxiv url: http://arxiv.org/abs/2505.19218v1
- Date: Sun, 25 May 2025 16:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.98601
- Title: Advancing Video Self-Supervised Learning via Image Foundation Models
- Title(参考訳): イメージファウンデーションモデルによる自己指導型ビデオ学習の促進
- Authors: Jingwei Wu, Zhewei Huang, Chang Liu,
- Abstract要約: 本稿では,映像表現モデルのトレーニングオーバーヘッドを大幅に低減することを目的とした,動画自己教師学習(AdViSe)アプローチを提案する。
UCF101の実験では、AdViSeは最先端のメソッドに匹敵するパフォーマンスを実現している。
本研究は、事前学習したIMMに基づいて、低コストのビデオ自己教師型学習に関する新たな知見を提供する。
- 参考スコア(独自算出の注目度): 5.3849195012239175
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the past decade, image foundation models (IFMs) have achieved unprecedented progress. However, the potential of directly using IFMs for video self-supervised representation learning has largely been overlooked. In this study, we propose an advancing video self-supervised learning (AdViSe) approach, aimed at significantly reducing the training overhead of video representation models using pre-trained IFMs. Specifically, we first introduce temporal modeling modules (ResNet3D) to IFMs, constructing a video representation model. We then employ a video self-supervised learning approach, playback rate perception, to train temporal modules while freezing the IFM components. Experiments on UCF101 demonstrate that AdViSe achieves performance comparable to state-of-the-art methods while reducing training time by $3.4\times$ and GPU memory usage by $8.2\times$. This study offers fresh insights into low-cost video self-supervised learning based on pre-trained IFMs. Code is available at https://github.com/JingwWu/advise-video-ssl.
- Abstract(参考訳): 過去10年間で、イメージファウンデーションモデル(IFM)は前例のない進歩を遂げた。
しかし、ビデオ自己教師型表現学習にIMMを直接活用する可能性はほとんど見過ごされている。
本研究では,事前学習したIMFを用いた映像表現モデルのトレーニングオーバーヘッドを大幅に低減することを目的とした,動画自己教師学習(AdViSe)アプローチを提案する。
具体的には、まず、IMFに時間モデリングモジュール(ResNet3D)を導入し、ビデオ表現モデルを構築する。
IFMコンポーネントを凍結しながら時間的モジュールを訓練するために,ビデオ自己教師型学習手法,再生率知覚を用いる。
UCF101の実験では、AdViSeは最先端のメソッドに匹敵するパフォーマンスを実現し、トレーニング時間を3.4\times$、GPUメモリ使用量を8.2\times$に削減している。
本研究は、事前学習したIMMに基づいて、低コストのビデオ自己教師型学習に関する新たな知見を提供する。
コードはhttps://github.com/JingwWu/advise-video-ssl.comで公開されている。
関連論文リスト
- VaViM and VaVAM: Autonomous Driving through Video Generative Modeling [88.33638585518226]
本稿では,オープンソースの自動回帰ビデオモデル(VaM)とそのビデオアクションモデル(VaVAM)を紹介する。
オープンループ運転とクローズドループ運転のシナリオでモデルを評価したところ、ビデオベースの事前学習が自律運転の可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2025-02-21T18:56:02Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning [123.63301596019522]
Masked Video distillation (MVD) は、ビデオ表現学習のための単純な2段階マスク付き特徴モデリングフレームワークである。
教師モデルを選択するために,ビデオ教師が教える生徒が時間重のビデオタスクにおいて,より優れたパフォーマンスを発揮することを観察する。
我々は,異なる教師の利点を活用するために,MVDのための時空間協調学習法を設計する。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Cross-Architecture Self-supervised Video Representation Learning [42.267775859095664]
自己教師型ビデオ表現学習のためのクロスアーキテクチャ・コントラスト学習フレームワークを提案する。
本稿では,2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを提案する。
UCF101およびHMDB51データセットにおける映像検索と行動認識のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-26T12:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。