論文の概要: Filtering, Distillation, and Hard Negatives for Vision-Language
Pre-Training
- arxiv url: http://arxiv.org/abs/2301.02280v2
- Date: Wed, 29 Mar 2023 19:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 17:23:31.397642
- Title: Filtering, Distillation, and Hard Negatives for Vision-Language
Pre-Training
- Title(参考訳): 視覚言語事前学習のためのフィルタリング, 蒸留, ハードネガティブ
- Authors: Filip Radenovic, Abhimanyu Dubey, Abhishek Kadian, Todor Mihaylov,
Simon Vandenhende, Yash Patel, Yi Wen, Vignesh Ramanathan, Dhruv Mahajan
- Abstract要約: 大規模ノイズデータに対するコントラスト学習で訓練された視覚言語モデルは、ゼロショット認識問題においてますます人気が高まっている。
本稿では、コントラスト付き事前学習パイプラインの次の3つの側面を改善する。
まず、データセットサイズを大幅に削減する、複雑さ、アクション、テキストスポッティング(CAT)という単純なフィルタリング戦略を提案する。
次に, コントラスト学習に強い一助表現を活用するための概念蒸留法を提案する。
- 参考スコア(独自算出の注目度): 36.57863211656931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models trained with contrastive learning on large-scale noisy
data are becoming increasingly popular for zero-shot recognition problems. In
this paper we improve the following three aspects of the contrastive
pre-training pipeline: dataset noise, model initialization and the training
objective. First, we propose a straightforward filtering strategy titled
Complexity, Action, and Text-spotting (CAT) that significantly reduces dataset
size, while achieving improved performance across zero-shot vision-language
tasks. Next, we propose an approach titled Concept Distillation to leverage
strong unimodal representations for contrastive training that does not increase
training complexity while outperforming prior work. Finally, we modify the
traditional contrastive alignment objective, and propose an importance-sampling
approach to up-sample the importance of hard-negatives without adding
additional complexity. On an extensive zero-shot benchmark of 29 tasks, our
Distilled and Hard-negative Training (DiHT) approach improves on 20 tasks
compared to the baseline. Furthermore, for few-shot linear probing, we propose
a novel approach that bridges the gap between zero-shot and few-shot
performance, substantially improving over prior work. Models are available at
https://github.com/facebookresearch/diht.
- Abstract(参考訳): 大規模雑音データに対するコントラスト学習を訓練した視覚言語モデルが,ゼロショット認識問題に対してますます人気が高まっている。
本稿では,データセットノイズ,モデル初期化,トレーニング目標という,コントラスト型事前学習パイプラインの3つの側面を改善する。
まず,複雑性,動作,テキストスポッティング(cat)という,ゼロショットビジョン言語タスクにおける性能向上を実現しつつ,データセットサイズを大幅に削減する簡単なフィルタリング戦略を提案する。
次に,従来の作業に勝るものの,トレーニングの複雑さを増さないコントラッシブトレーニングにおいて,強い一助表現を活用するための概念蒸留法を提案する。
最後に,従来のコントラストアライメントの目標を変更し,複雑さを増すことなくハードネガティブスの重要性をアップサンプルする重要サンプリング手法を提案する。
29タスクの広範囲なゼロショットベンチマークでは、DHT(Distilled and Hard- negative Training)アプローチがベースラインと比較して20タスクを改善する。
さらに, ゼロショットとマイショットのギャップを橋渡しし, 先行作業よりも大幅に改善する新しい手法を提案する。
モデルはhttps://github.com/facebookresearch/dihtで入手できる。
関連論文リスト
- Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Understanding Zero-Shot Adversarial Robustness for Large-Scale Models [31.295249927085475]
ゼロショット対角ロバスト性に対する大規模モデルの強調問題を特定し,検討する。
本研究では,テキスト埋め込みと対向的視覚特徴を対照学習と整合させるテキスト誘導型対向的学習損失を提案する。
当社のアプローチは,ImageNetと15のゼロショットデータセットに対して,平均31ポイント以上の改善を達成し,CLIPに対するゼロショット対逆ロバスト性を大幅に向上させる。
論文 参考訳(メタデータ) (2022-12-14T04:08:56Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。