論文の概要: SCAN: Bootstrapping Contrastive Pre-training for Data Efficiency
- arxiv url: http://arxiv.org/abs/2411.09126v1
- Date: Thu, 14 Nov 2024 01:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:24:40.754731
- Title: SCAN: Bootstrapping Contrastive Pre-training for Data Efficiency
- Title(参考訳): SCAN:データ効率のためのブートストラッピングコントラスト事前トレーニング
- Authors: Yangyang Guo, Mohan Kankanhalli,
- Abstract要約: 本稿では,新しい動的ブートストラップ・データセット・プルーニング手法を提案する。
データ準備の後にデータセットの突然変異操作を行い、どちらも反復的な更新と動的更新を行う。
大規模画像テキストペアデータセットの7つのCLIPモデルと,ImageNetデータセットの2つのMoCoモデルを個別に事前トレーニングし,合計16の事前トレーニングモデルを得た。
- 参考スコア(独自算出の注目度): 10.555957282859
- License:
- Abstract: While contrastive pre-training is widely employed, its data efficiency problem has remained relatively under-explored thus far. Existing methods often rely on static coreset selection algorithms to pre-identify important data for training. However, this static nature renders them unable to dynamically track the data usefulness throughout pre-training, leading to subpar pre-trained models. To address this challenge, our paper introduces a novel dynamic bootstrapping dataset pruning method. It involves pruning data preparation followed by dataset mutation operations, both of which undergo iterative and dynamic updates. We apply this method to two prevalent contrastive pre-training frameworks: \textbf{CLIP} and \textbf{MoCo}, representing vision-language and vision-centric domains, respectively. In particular, we individually pre-train seven CLIP models on two large-scale image-text pair datasets, and two MoCo models on the ImageNet dataset, resulting in a total of 16 pre-trained models. With a data pruning rate of 30-35\% across all 16 models, our method exhibits only marginal performance degradation (less than \textbf{1\%} on average) compared to corresponding models trained on the full dataset counterparts across various downstream datasets, and also surpasses several baselines with a large performance margin. Additionally, the byproduct from our method, \ie coresets derived from the original datasets after pre-training, also demonstrates significant superiority in terms of downstream performance over other static coreset selection approaches.
- Abstract(参考訳): 対照的な事前学習は広く採用されているが、データ効率の問題はこれまでも比較的過小評価されてきた。
既存の方法は、トレーニングのために重要なデータを事前に識別するために静的なコアセット選択アルゴリズムに依存することが多い。
しかし、この静的な性質は、事前トレーニングを通してデータの有用性を動的に追跡することができず、事前トレーニングされたモデルのサブパーに繋がる。
この課題に対処するため,本研究では,動的なブートストラップ・データセット・プルーニング手法を提案する。
データ準備の後にデータセットの突然変異操作を行い、どちらも反復的な更新と動的更新を行う。
本稿では,この手法を,視覚言語と視覚中心のドメインを表す2つの一般的なコントラスト事前学習フレームワーク, \textbf{CLIP} と \textbf{MoCo} に適用する。
特に、2つの大規模画像テキストペアデータセットと、ImageNetデータセット上の2つのMoCoモデルで、7つのCLIPモデルを個別に事前トレーニングし、合計16の事前トレーニングモデルを作成しました。
データプルーニング率を16モデルすべてで30~35\%とすると、各ダウンストリームデータセット全体にわたるフルデータセットでトレーニングされたモデルと比較して、マージン的なパフォーマンス低下(平均ではtextbf{1\%}未満)しか示さず、また、パフォーマンスのマージンが大きいベースラインを数点上回っている。
さらに,本手法の副産物であるiie coresetsは,事前学習後に元のデータセットから派生したものであり,他の静的コアセット選択手法に比べて,下流性能において大きな優位性を示す。
関連論文リスト
- Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Large-scale Dataset Pruning with Dynamic Uncertainty [28.60845105174658]
画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集して、より大きなモデルをトレーニングすることによって進歩している。
本稿では,大規模データセットの創出方法について検討し,非無視的な性能低下を伴う高度な深層モデルのトレーニングを行うための情報サブセットを作成する。
論文 参考訳(メタデータ) (2023-06-08T13:14:35Z) - Continual Learning with Optimal Transport based Mixture Model [17.398605698033656]
成熟最適輸送理論(OT-MM)の優れた性質に基づくオンライン混合モデル学習手法を提案する。
提案手法は,現在の最先端のベースラインを大きく上回ることができる。
論文 参考訳(メタデータ) (2022-11-30T06:40:29Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。