論文の概要: Data-Efficient Language-Supervised Zero-Shot Learning with
Self-Distillation
- arxiv url: http://arxiv.org/abs/2104.08945v1
- Date: Sun, 18 Apr 2021 19:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 07:09:24.717886
- Title: Data-Efficient Language-Supervised Zero-Shot Learning with
Self-Distillation
- Title(参考訳): 自己蒸留によるデータ効率の高い言語教師付きゼロショット学習
- Authors: Ruizhe Cheng, Bichen Wu, Peizhao Zhang, Peter Vajda, Joseph E.
Gonzalez
- Abstract要約: 自然言語は、監督された「ゴールド」ラベルよりも広く、より豊かな監督源であることが示されている。
ソフトラベルを用いてノイズの多い画像とテキストのペアから学習する,データ効率の高いコントラスト蒸留法を提案する。
我々のモデルは事前訓練された画像と文エンコーダから知識を伝達し,CLIPよりも133倍小さい3M画像テキストペアで高い性能を達成する。
- 参考スコア(独自算出の注目度): 23.631184498984933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional computer vision models are trained to predict a fixed set of
predefined categories. Recently, natural language has been shown to be a
broader and richer source of supervision that provides finer descriptions to
visual concepts than supervised "gold" labels. Previous works, such as CLIP,
use a simple pretraining task of predicting the pairings between images and
text captions. CLIP, however, is data hungry and requires more than 400M image
text pairs for training. We propose a data-efficient contrastive distillation
method that uses soft labels to learn from noisy image-text pairs. Our model
transfers knowledge from pretrained image and sentence encoders and achieves
strong performance with only 3M image text pairs, 133x smaller than CLIP. Our
method exceeds the previous SoTA of general zero-shot learning on ImageNet
21k+1k by 73% relatively with a ResNet50 image encoder and DeCLUTR text
encoder. We also beat CLIP by 10.5% relatively on zero-shot evaluation on
Google Open Images (19,958 classes).
- Abstract(参考訳): 従来のコンピュータビジョンモデルは、予め定義されたカテゴリの固定セットを予測するように訓練される。
近年、自然言語は、監督された「ゴールド」ラベルよりも視覚的概念に詳細な記述を提供する、より広範にリッチな監督源であることが示されている。
CLIPのような以前の作業では、イメージとテキストキャプション間のペアリングを予測するための単純な事前トレーニングタスクを使用していた。
しかしclipはデータに飢えており、トレーニングには400万以上の画像テキストペアを必要とする。
本研究では,ソフトラベルを用いてノイズの多い画像テキスト対から学習するデータ効率の高いコントラスト蒸留法を提案する。
我々のモデルは事前訓練された画像と文エンコーダから知識を伝達し,CLIPよりも133倍小さい3M画像テキストペアで高い性能を達成する。
提案手法は,ResNet50画像エンコーダとDeCLUTRテキストエンコーダを用いて,ImageNet 21k+1k上の一般ゼロショット学習のSoTAを73%高速化する。
また、Google Open Images(19,958クラス)のゼロショット評価でCLIPを10.5%上回りました。
関連論文リスト
- Visual Language Pretrained Multiple Instance Zero-Shot Transfer for
Histopathology Images [8.612889476601822]
我々は,ギガピクセルの病理組織像全体に対して,コントラスト整列画像とテキストモデルのゼロショット転送能力を開放するフレームワークMI-Zeroを提案する。
MI-Zeroは、複数のインスタンス学習の枠組みの下でゼロショット転送を再構成し、非常に大きな画像に対する推論の計算課題を克服する。
論文 参考訳(メタデータ) (2023-06-13T15:05:24Z) - Text-Only Training for Image Captioning using Noise-Injected CLIP [23.384962328773753]
トレーニング時にCLIPモデルと追加テキストデータのみを用いた画像キャプチャのタスクについて検討する。
私たちのアプローチは、CLIPがビジュアルとテキストの埋め込みを類似させるように訓練されているという事実に依存しています。
論文 参考訳(メタデータ) (2022-11-01T16:36:01Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model
Pretraining [68.84339672878066]
意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。
ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
論文 参考訳(メタデータ) (2022-04-29T13:38:42Z) - Data Efficient Language-supervised Zero-shot Recognition with Optimal
Transport Distillation [43.03533959429743]
本稿では,オンライン最適トランスポートを用いて,コントラスト学習のためのラベルとしてソフトな画像テキストマッチングを求めるOTTERを提案する。
事前訓練された画像とテキストエンコーダに基づいて、OTTERで訓練されたモデルは、3M画像テキストペアだけで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T11:27:26Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Supervision Exists Everywhere: A Data Efficient Contrastive
Language-Image Pre-training Paradigm [109.0573737034428]
大規模コントラスト言語-画像事前訓練(CLIP)は、その印象的なゼロショット認識能力と下流タスクへの優れた転送性により、前例のない注目を集めている。
本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。
画像とテキストのペア間の広範な監視を慎重に活用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-10-11T12:17:32Z) - Learning Transferable Visual Models From Natural Language Supervision [13.866297967166089]
画像に関する生のテキストから直接学ぶことは、有望な代替手段だ。
本研究では,どのキャプションがどの画像で動くかを予測する単純な事前学習タスクが,効率よく,スケーラブルな学習方法であることを実証する。
SOTA画像表現は、インターネットから収集された4億(画像、テキスト)のデータセットから学習される。
論文 参考訳(メタデータ) (2021-02-26T19:04:58Z) - VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and
Linguistic Knowledge from Pretraining [39.24803665848558]
大規模事前学習言語モデル(LM)から言語知識を活用するデータ効率のよい画像キャプションモデルであるVisualGPTを提案する。
少量のインドメイントレーニングデータに予め訓練されたLMを言語デコーダとして迅速に適応させる,新しい自己回復型エンコーダデコーダ注意機構を設計した。
VisualGPTは、MS COCOで最大10.8%のCIDEr、コンセプチュアルキャプションで最大5.4%のCIDErで最高のベースラインモデルを上回る。
論文 参考訳(メタデータ) (2021-02-20T18:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。