論文の概要: HVM-1: Large-scale video models pretrained with nearly 5000 hours of human-like video data
- arxiv url: http://arxiv.org/abs/2407.18067v1
- Date: Thu, 25 Jul 2024 14:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 13:49:09.686093
- Title: HVM-1: Large-scale video models pretrained with nearly 5000 hours of human-like video data
- Title(参考訳): HVM-1: 5000時間近い人間のようなビデオデータで事前訓練された大規模ビデオモデル
- Authors: A. Emin Orhan,
- Abstract要約: 224xと448xの空間解像度で訓練された2つの633Mパラメータモデルをリリースする。
下流の映像や画像認識タスクにおいて,これらのモデルの性能を評価する。
HVM-1モデルは、画像ベースMAEアルゴリズムで事前訓練されたモデルと比較して、より正確で堅牢なオブジェクト表現を学習する。
- 参考スコア(独自算出の注目度): 10.225358400539722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Human-like Video Models (HVM-1), large-scale video models pretrained with nearly 5000 hours of curated human-like video data (mostly egocentric, temporally extended, continuous video recordings), using the spatiotemporal masked autoencoder (ST-MAE) algorithm. We release two 633M parameter models trained at spatial resolutions of 224x224 and 448x448 pixels. We evaluate the performance of these models in downstream few-shot video and image recognition tasks and compare them against a model pretrained with 1330 hours of short action-oriented video clips from YouTube (Kinetics-700). HVM-1 models perform competitively against the Kinetics-700 pretrained model in downstream evaluations despite substantial qualitative differences between the spatiotemporal characteristics of the corresponding pretraining datasets. HVM-1 models also learn more accurate and more robust object representations compared to models pretrained with the image-based MAE algorithm on the same data, demonstrating the potential benefits of learning to predict temporal regularities in natural videos for learning better object representations.
- Abstract(参考訳): 我々は,時空間マスク付きオートエンコーダ(ST-MAE)アルゴリズムを用いて,人型ビデオデータ(主に自我中心的,時間的拡張,連続的なビデオ記録)を5000時間近く事前訓練した大規模ビデオモデルであるHVM-1を紹介する。
空間解像度224x224と448x448の2つの633Mパラメータモデルをリリースする。
我々は,これらのモデルの性能を下流の数ショットビデオおよび画像認識タスクで評価し,YouTube (Kinetics-700) から1330時間のショートアクション指向ビデオクリップを事前訓練したモデルと比較した。
HVM-1モデルは、対応する事前学習データセットの時空間特性に実質的な質的な差異があるにもかかわらず、下流評価においてキネティクス-700事前学習モデルと競争的に機能する。
HVM-1モデルは、同じデータ上で画像ベースMAEアルゴリズムで事前訓練されたモデルと比較して、より正確で堅牢なオブジェクト表現も学習する。
関連論文リスト
- Learning Video Representations without Natural Videos [36.0052738021796]
本研究では, 自然映像を訓練に取り入れることなく, 合成ビデオや自然画像から有用な映像表現を学習できることを示す。
人工ビデオに事前学習したビデオMAEモデルでは、UCF101アクション分類におけるパフォーマンスギャップの97.2%を、スクラッチからのトレーニングと自然ビデオからの自己教師付き事前訓練の間に閉じている。
UCF101-Pの14のアウト・オブ・ディストリビューションデータセットのうち11で、UCF101事前トレーニングと同様のパフォーマンスを示し、UCF101事前トレーニングモデルを上回っている。
論文 参考訳(メタデータ) (2024-10-31T17:59:30Z) - Revisiting Feature Prediction for Learning Visual Representations from Video [62.08833572467379]
V-JEPAは、機能予測の目的のみを用いて訓練された視覚モデルの集合である。
モデルは、公開データセットから収集された200万のビデオに基づいてトレーニングされる。
以上の結果から,映像特徴の予測による学習が視覚表現の多目的化につながることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T18:59:11Z) - Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models [52.93036326078229]
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。
本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。
我々のモデルであるPreserve Your Own correlation (PYoCo)は、UCF-101およびMSR-VTTベンチマークでSOTAゼロショットのテキスト・ビデオ結果が得られる。
論文 参考訳(メタデータ) (2023-05-17T17:59:16Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning [123.63301596019522]
Masked Video distillation (MVD) は、ビデオ表現学習のための単純な2段階マスク付き特徴モデリングフレームワークである。
教師モデルを選択するために,ビデオ教師が教える生徒が時間重のビデオタスクにおいて,より優れたパフォーマンスを発揮することを観察する。
我々は,異なる教師の利点を活用するために,MVDのための時空間協調学習法を設計する。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Unified Image and Video Saliency Modeling [21.701431656717112]
イメージとビデオの相性モデリングは統一モデルによってアプローチできるだろうか?
本研究では,4つの新しい領域適応手法と学習されたガウス先行の定式化を提案する。
我々はこれらの技術を、シンプルで軽量なエンコーダ-RNNデコーダスタイルのネットワークUNISALに統合し、画像とビデオのサリエンシデータを併用してトレーニングする。
本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像塩分濃度データセットについて検討した。
論文 参考訳(メタデータ) (2020-03-11T18:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。