論文の概要: A Fistful of Words: Learning Transferable Visual Models from
Bag-of-Words Supervision
- arxiv url: http://arxiv.org/abs/2112.13884v1
- Date: Mon, 27 Dec 2021 20:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 15:30:39.277834
- Title: A Fistful of Words: Learning Transferable Visual Models from
Bag-of-Words Supervision
- Title(参考訳): 単語の断片:バグ・オブ・ワード・スーパービジョンから伝達可能な視覚モデルを学ぶ
- Authors: Ajinkya Tejankar, Ajinkya Tejankar, Bichen Wu, Saining Xie, Madian
Khabsa, Hamed Pirsiavash, Hamed Firooz
- Abstract要約: 本稿では,ゼロショット画像分類モデルの学習において,言語指導のどの部分が不可欠かを理解することに焦点を当てる。
単純なBag-of-Words (BoW)キャプションは、データセットのほとんどのイメージキャプションの代替として使用できる。
プレトレーニングされたBoWモデルを用いて,キャプションを持たない画像に擬似BoWキャプションを生成することで,より多くのトレーニングデータを得ることができる。
- 参考スコア(独自算出の注目度): 32.4697157553247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using natural language as a supervision for training visual recognition
models holds great promise. Recent works have shown that if such supervision is
used in the form of alignment between images and captions in large training
datasets, then the resulting aligned models perform well on zero-shot
classification as downstream tasks2. In this paper, we focus on teasing out
what parts of the language supervision are essential for training zero-shot
image classification models. Through extensive and careful experiments, we show
that: 1) A simple Bag-of-Words (BoW) caption could be used as a replacement for
most of the image captions in the dataset. Surprisingly, we observe that this
approach improves the zero-shot classification performance when combined with
word balancing. 2) Using a BoW pretrained model, we can obtain more training
data by generating pseudo-BoW captions on images that do not have a caption.
Models trained on images with real and pseudo-BoW captions achieve stronger
zero-shot performance. On ImageNet-1k zero-shot evaluation, our best model,
that uses only 3M image-caption pairs, performs on-par with a CLIP model
trained on 15M image-caption pairs (31.5% vs 31.3%).
- Abstract(参考訳): 自然言語を視覚認識モデルの訓練の監督として使用することは大きな約束である。
近年の研究では、大規模なトレーニングデータセットにおける画像とキャプションのアライメントの形でこのような監督が使われる場合、結果のアライメントモデルは、下流タスク2のようにゼロショット分類でうまく機能することが示された。
本稿では,ゼロショット画像分類モデルの学習において,言語指導のどの部分が不可欠かを理解することに焦点を当てる。
広範囲で慎重な実験を通して
1) 単純なBag-of-Words(BoW)キャプションをデータセットのほとんどのイメージキャプションの代替として使用することができる。
驚くことに、このアプローチは単語のバランスと組み合わせることでゼロショット分類のパフォーマンスが向上する。
2)BoW事前学習モデルを用いて,キャプションを持たない画像に擬似BoWキャプションを生成することにより,より多くのトレーニングデータを得ることができる。
実画像と疑似画像のキャプションで訓練されたモデルは、ゼロショット性能が向上する。
ImageNet-1kゼロショット評価では、3Mイメージキャプションペアのみを使用する最良のモデルが、15Mイメージキャプションペア(31.5%対31.3%)でトレーニングされたCLIPモデルでオンパーを実行する。
関連論文リスト
- Large-Scale Bidirectional Training for Zero-Shot Image Captioning [44.17587735943739]
本稿では、画像キャプションをゼロショットにするための効率的なトレーニングと推論のフレームワークであるBITTERSについて紹介する。
大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションの実現の鍵であることを示す。
論文 参考訳(メタデータ) (2022-11-13T00:09:36Z) - Expanding Language-Image Pretrained Models for General Video Recognition [136.0948049010682]
対照的な言語画像事前学習は,Webスケールデータから視覚・テキスト共同表現を学習する上で大きな成功を収めている。
本稿では,事前学習した言語イメージモデルをビデオ認識に直接適応させる,シンプルで効果的な手法を提案する。
我々の手法は、2つの一般的なプロトコルでトップ1の精度で、現在の最先端の手法を+7.6%、+14.9%上回る。
論文 参考訳(メタデータ) (2022-08-04T17:59:54Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Data Efficient Language-supervised Zero-shot Recognition with Optimal
Transport Distillation [43.03533959429743]
本稿では,オンライン最適トランスポートを用いて,コントラスト学習のためのラベルとしてソフトな画像テキストマッチングを求めるOTTERを提案する。
事前訓練された画像とテキストエンコーダに基づいて、OTTERで訓練されたモデルは、3M画像テキストペアだけで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T11:27:26Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Scaling Up Vision-Language Pre-training for Image Captioning [51.639880603821446]
画像キャプション用LargEスケールiMageカプティオナーであるLEMONについて紹介する。
いくつかの主要な画像キャプションベンチマークにおいて,LEMONが新たな芸術性を達成することを示す。
論文 参考訳(メタデータ) (2021-11-24T02:30:22Z) - Learning Transferable Visual Models From Natural Language Supervision [13.866297967166089]
画像に関する生のテキストから直接学ぶことは、有望な代替手段だ。
本研究では,どのキャプションがどの画像で動くかを予測する単純な事前学習タスクが,効率よく,スケーラブルな学習方法であることを実証する。
SOTA画像表現は、インターネットから収集された4億(画像、テキスト)のデータセットから学習される。
論文 参考訳(メタデータ) (2021-02-26T19:04:58Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。