論文の概要: Revisiting Feature Prediction for Learning Visual Representations from Video
- arxiv url: http://arxiv.org/abs/2404.08471v1
- Date: Thu, 15 Feb 2024 18:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 11:58:46.135430
- Title: Revisiting Feature Prediction for Learning Visual Representations from Video
- Title(参考訳): 映像からの視覚表現学習のための特徴予測の再検討
- Authors: Adrien Bardes, Quentin Garrido, Jean Ponce, Xinlei Chen, Michael Rabbat, Yann LeCun, Mahmoud Assran, Nicolas Ballas,
- Abstract要約: V-JEPAは、機能予測の目的のみを用いて訓練された視覚モデルの集合である。
モデルは、公開データセットから収集された200万のビデオに基づいてトレーニングされる。
以上の結果から,映像特徴の予測による学習が視覚表現の多目的化につながることが示唆された。
- 参考スコア(独自算出の注目度): 62.08833572467379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores feature prediction as a stand-alone objective for unsupervised learning from video and introduces V-JEPA, a collection of vision models trained solely using a feature prediction objective, without the use of pretrained image encoders, text, negative examples, reconstruction, or other sources of supervision. The models are trained on 2 million videos collected from public datasets and are evaluated on downstream image and video tasks. Our results show that learning by predicting video features leads to versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model's parameters; e.g., using a frozen backbone. Our largest model, a ViT-H/16 trained only on videos, obtains 81.9% on Kinetics-400, 72.2% on Something-Something-v2, and 77.9% on ImageNet1K.
- Abstract(参考訳): 本稿では,映像からの教師なし学習の1つの目的として機能予測を考察し,事前学習された画像エンコーダ,テキスト,否定例,再構成,その他の監督源を使わずに,特徴予測目的のみを用いて訓練された視覚モデルのコレクションであるV-JEPAを紹介する。
モデルは、公開データセットから収集された200万のビデオに基づいてトレーニングされ、下流の画像とビデオタスクで評価される。
この結果から,映像特徴の予測による学習は,動作と外観に基づくタスクにおいて,モデルパラメータ,例えば凍結したバックボーンの適応を伴わずに,多目的な視覚表現をもたらすことが示された。
我々の最大のモデルであるVT-H/16はビデオでしか訓練されていないが、Kineetics-400では81.9%、Something-v2では72.2%、ImageNet1Kでは77.9%を獲得している。
関連論文リスト
- HVM-1: Large-scale video models pretrained with nearly 5000 hours of human-like video data [10.225358400539722]
224xと448xの空間解像度で訓練された2つの633Mパラメータモデルをリリースする。
下流の映像や画像認識タスクにおいて,これらのモデルの性能を評価する。
HVM-1モデルは、画像ベースMAEアルゴリズムで事前訓練されたモデルと比較して、より正確で堅牢なオブジェクト表現を学習する。
論文 参考訳(メタデータ) (2024-07-25T14:21:50Z) - Advancing Human Action Recognition with Foundation Models trained on Unlabeled Public Videos [2.3247413495885647]
我々は283,582本のTikTokビデオクリップを使用して、386のハッシュタグに分類し、ドメイン固有のアクション認識基盤モデルをトレーニングしている。
UCF101は99.05%、HMDB51は86.08%、Kinetics-400は85.51%、V2は74.27%である。
論文 参考訳(メタデータ) (2024-02-14T00:41:10Z) - ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings
for Video Action Recognition [4.36572039512405]
本稿では,ビデオ行動認識のための視覚言語モデル(VLM)について紹介する。
特に、この手法は2つの一般的な人間のビデオ行動認識ベンチマークデータセットにおいて、92.81%と73.02%の精度を達成する。
論文 参考訳(メタデータ) (2023-08-07T20:50:54Z) - Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning [123.63301596019522]
Masked Video distillation (MVD) は、ビデオ表現学習のための単純な2段階マスク付き特徴モデリングフレームワークである。
教師モデルを選択するために,ビデオ教師が教える生徒が時間重のビデオタスクにおいて,より優れたパフォーマンスを発揮することを観察する。
我々は,異なる教師の利点を活用するために,MVDのための時空間協調学習法を設計する。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - Could Giant Pretrained Image Models Extract Universal Representations? [94.97056702288317]
本稿では,多種多様なコンピュータビジョンタスクに適用した凍結事前学習モデルについて述べる。
私たちの研究は、この凍結した設定にどのような事前学習タスクが最適か、凍結した設定を様々な下流タスクに柔軟にする方法、より大きなモデルサイズの影響について、質問に答えています。
論文 参考訳(メタデータ) (2022-11-03T17:57:10Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。