論文の概要: Scaling Language-Free Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2504.01017v1
- Date: Tue, 01 Apr 2025 17:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:43.481612
- Title: Scaling Language-Free Visual Representation Learning
- Title(参考訳): 言語なしの視覚表現学習のスケーリング
- Authors: David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie,
- Abstract要約: Visual Self-Supervised Learning (SSL) は現在、VQA (Visual Question Answering) のようなマルチモーダル環境で、コントラスト言語-画像事前学習 (CLIP) を過小評価している。
このマルチモーダルギャップは、視覚的なSSLとCLIPモデルが異なるデータでトレーニングされているにもかかわらず、言語監督によって導入されたセマンティクスに起因することが多い。
本稿では、同じMetaCLIPデータ上で、ビジュアルSSLとCLIPモデルの両方をトレーニングし、視覚エンコーダの多様なテストベッドとしてVQAを活用することにより、この問題を考察する。
- 参考スコア(独自算出の注目度): 62.31591054289958
- License:
- Abstract: Visual Self-Supervised Learning (SSL) currently underperforms Contrastive Language-Image Pretraining (CLIP) in multimodal settings such as Visual Question Answering (VQA). This multimodal gap is often attributed to the semantics introduced by language supervision, even though visual SSL and CLIP models are often trained on different data. In this work, we ask the question: "Do visual self-supervised approaches lag behind CLIP due to the lack of language supervision, or differences in the training data?" We study this question by training both visual SSL and CLIP models on the same MetaCLIP data, and leveraging VQA as a diverse testbed for vision encoders. In this controlled setup, visual SSL models scale better than CLIP models in terms of data and model capacity, and visual SSL performance does not saturate even after scaling up to 7B parameters. Consequently, we observe visual SSL methods achieve CLIP-level performance on a wide range of VQA and classic vision benchmarks. These findings demonstrate that pure visual SSL can match language-supervised visual pretraining at scale, opening new opportunities for vision-centric representation learning.
- Abstract(参考訳): Visual Self-Supervised Learning (SSL)は現在、Visual Question Answering (VQA)のようなマルチモーダル環境で、コントラスト言語-画像事前学習(CLIP)を過小評価している。
このマルチモーダルギャップは、視覚的なSSLとCLIPモデルが異なるデータでトレーニングされているにもかかわらず、言語監督によって導入されたセマンティクスに起因することが多い。
言語指導の欠如やトレーニングデータの違いのために、視覚的自己監督アプローチはCLIPに遅れているのでしょうか?
本稿では、同じMetaCLIPデータ上で、ビジュアルSSLとCLIPモデルの両方をトレーニングし、視覚エンコーダの多様なテストベッドとしてVQAを活用することにより、この問題を考察する。
この制御されたセットアップでは、データとモデルキャパシティの観点から、ビジュアルSSLモデルはCLIPモデルよりもスケールが良く、ビジュアルSSLのパフォーマンスは7Bパラメータまでスケールアップしても飽和しない。
その結果,様々なVQAおよび古典的ビジョンベンチマークにおいて,CLIPレベルの性能を実現する視覚的SSL手法が得られた。
これらの結果は、純粋なビジュアルSSLが言語による視覚前訓練と大規模に一致し、視覚中心の表現学習の新たな機会を開くことを示している。
関連論文リスト
- CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Reverse Engineering Self-Supervised Learning [17.720366509919167]
自己教師型学習(SSL)は機械学習の強力なツールである。
本稿ではSSL学習表現の詳細な実験的検討を行う。
論文 参考訳(メタデータ) (2023-05-24T23:15:28Z) - Explaining, Analyzing, and Probing Representations of Self-Supervised
Learning Models for Sensor-based Human Activity Recognition [2.2082422928825136]
自己教師付き学習(SSL)フレームワークは、センサベースヒューマンアクティビティ認識(HAR)に広く応用されている。
本稿では,最近のSSLフレームワークであるSimCLRとVICRegの深層表現を解析することを目的とする。
論文 参考訳(メタデータ) (2023-04-14T07:53:59Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文 参考訳(メタデータ) (2021-07-13T20:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。