論文の概要: Escaping The Big Data Paradigm in Self-Supervised Representation Learning
- arxiv url: http://arxiv.org/abs/2502.18056v1
- Date: Tue, 25 Feb 2025 10:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:17.233049
- Title: Escaping The Big Data Paradigm in Self-Supervised Representation Learning
- Title(参考訳): 自己監督型表現学習におけるビッグデータパラダイムの回避
- Authors: Carlos Vélez García, Miguel Cazorla, Jorge Pomares,
- Abstract要約: SCOTTはMasked Image Modelingタスクと互換性のある浅いトークン化アーキテクチャである。
SCOTTは、視覚変換器(ViT)に畳み込み誘導バイアスを注入し、小規模のデータレシエーションにおけるその有効性を高める。
提案手法は,Oxford Flowers-102,Oxford IIIT Pets-37,ImageNet-100の3つの小型,標準的,きめ細かいデータセットに対して検証を行った。
- 参考スコア(独自算出の注目度): 2.10796947080293
- License:
- Abstract: The reliance on large-scale datasets and extensive computational resources has become a major barrier to advancing representation learning in vision, especially in data-scarce domains. In this paper, we address the critical question: Can we escape the big data paradigm in self-supervised representation learning from images? We introduce SCOTT (Sparse Convolutional Tokenizer for Transformers), a shallow tokenization architecture that is compatible with Masked Image Modeling (MIM) tasks. SCOTT injects convolutional inductive biases into Vision Transformers (ViTs), enhancing their efficacy in small-scale data regimes. Alongside, we propose to train on a Joint-Embedding Predictive Architecture within a MIM framework (MIM-JEPA), operating in latent representation space to capture more semantic features. Our approach enables ViTs to be trained from scratch on datasets orders of magnitude smaller than traditionally required --without relying on massive external datasets for pretraining. We validate our method on three small-size, standard-resoultion, fine-grained datasets: Oxford Flowers-102, Oxford IIIT Pets-37, and ImageNet-100. Despite the challenges of limited data and high intra-class similarity, frozen SCOTT models pretrained with MIM-JEPA significantly outperform fully supervised methods and achieve competitive results with SOTA approaches that rely on large-scale pretraining, complex image augmentations and bigger model sizes. By demonstrating that robust off-the-shelf representations can be learned with limited data, compute, and model sizes, our work paves the way for computer applications in resource constrained environments such as medical imaging or robotics. Our findings challenge the prevailing notion that vast amounts of data are indispensable for effective representation learning in vision, offering a new pathway toward more accessible and inclusive advancements in the field.
- Abstract(参考訳): 大規模データセットと広範な計算資源への依存は、特にデータスカース領域において、視覚における表現学習を前進させる上で大きな障壁となっている。
本稿では,画像からの自己教師型表現学習において,ビッグデータパラダイムを回避できるのか,という批判的問題に対処する。
Masked Image Modeling (MIM)タスクと互換性のある浅いトークン化アーキテクチャであるSCOTT(Sparse Convolutional Tokenizer for Transformers)を紹介する。
SCOTTは、視覚変換器(ViT)に畳み込み誘導バイアスを注入し、小規模のデータレシエーションにおけるその有効性を高める。
同時に、MIMフレームワーク(MIM-JEPA)内で、よりセマンティックな特徴を捉えるために、潜在表現空間を運用する統合埋め込み予測アーキテクチャをトレーニングすることを提案する。
当社のアプローチでは、ViTを従来よりもはるかに小さなデータセットでスクラッチからトレーニングすることが可能です。
提案手法は,Oxford Flowers-102,Oxford IIIT Pets-37,ImageNet-100の3つの小型,標準的,きめ細かいデータセットに対して検証を行った。
限られたデータと高いクラス内類似性にもかかわらず、MIM-JEPA で事前訓練された SCOTT モデルは完全な教師付き手法よりも優れており、大規模な事前学習、複雑な画像拡張、モデルサイズに依存した SOTA アプローチと競合する結果が得られる。
堅牢なオフザシェルフ表現は、限られたデータ、計算、モデルサイズで学習できることを実証することにより、我々の研究は、医療画像やロボット工学のようなリソース制約のある環境におけるコンピュータ応用の道を開く。
我々の発見は、視覚における効果的な表現学習には膨大なデータが不可欠であるという考えに挑戦し、この分野におけるよりアクセスしやすく包括的な進歩への新たな道筋を提供する。
関連論文リスト
- Pretraining Billion-scale Geospatial Foundational Models on Frontier [0.16492989697868893]
ファンデーションモデル(FM)は、自己教師付き学習を通じて、インターネットスケールの未ラベルデータで訓練される。
本研究では,空間的応用のための10億規模のFMとHPCトレーニングプロファイルを,公開データの事前学習により検討する。
我々のより大きな3Bパラメータサイズモデルでは、トップ1シーンの分類精度が最大30%向上する。
論文 参考訳(メタデータ) (2024-04-17T19:16:32Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - On The State of Data In Computer Vision: Human Annotations Remain
Indispensable for Developing Deep Learning Models [0.0]
高品質ラベル付きデータセットは機械学習(ML)の発展に重要な役割を果たす
2012年にImageNetデータセットとAlexNetモデルが登場して以来、新しいオープンソースのラベル付きビジョンデータセットのサイズはほぼ一定である。
コンピュータビジョンコミュニティの少数の出版物は、Imagenetよりも桁違いの大きさのデータセットの教師付き学習に取り組む。
論文 参考訳(メタデータ) (2021-07-31T00:08:21Z) - Deflating Dataset Bias Using Synthetic Data Augmentation [8.509201763744246]
自律走行車(AV)の視覚タスクの最先端の手法は、教師あり学習に依存している。
本研究の目的は,視覚タスクにおける実際のデータセットのギャップを埋めるために,ターゲットとなる合成データ拡張の利用を検討することである。
AVに実用的な3つの異なるコンピュータビジョンタスクに関する実証研究は、トレーニングミックスに合成データを持つことは、クロスデータセットの一般化性能を著しく向上させることを一貫して示している。
論文 参考訳(メタデータ) (2020-04-28T21:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。