論文の概要: Learning Transferable Visual Models From Natural Language Supervision
- arxiv url: http://arxiv.org/abs/2103.00020v1
- Date: Fri, 26 Feb 2021 19:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:14:27.602582
- Title: Learning Transferable Visual Models From Natural Language Supervision
- Title(参考訳): 自然言語スーパービジョンから伝達可能な視覚モデルを学ぶ
- Authors: Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel
Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack
Clark, Gretchen Krueger, Ilya Sutskever
- Abstract要約: 画像に関する生のテキストから直接学ぶことは、有望な代替手段だ。
本研究では,どのキャプションがどの画像で動くかを予測する単純な事前学習タスクが,効率よく,スケーラブルな学習方法であることを実証する。
SOTA画像表現は、インターネットから収集された4億(画像、テキスト)のデータセットから学習される。
- 参考スコア(独自算出の注目度): 13.866297967166089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art computer vision systems are trained to predict a fixed set
of predetermined object categories. This restricted form of supervision limits
their generality and usability since additional labeled data is needed to
specify any other visual concept. Learning directly from raw text about images
is a promising alternative which leverages a much broader source of
supervision. We demonstrate that the simple pre-training task of predicting
which caption goes with which image is an efficient and scalable way to learn
SOTA image representations from scratch on a dataset of 400 million (image,
text) pairs collected from the internet. After pre-training, natural language
is used to reference learned visual concepts (or describe new ones) enabling
zero-shot transfer of the model to downstream tasks. We study the performance
of this approach by benchmarking on over 30 different existing computer vision
datasets, spanning tasks such as OCR, action recognition in videos,
geo-localization, and many types of fine-grained object classification. The
model transfers non-trivially to most tasks and is often competitive with a
fully supervised baseline without the need for any dataset specific training.
For instance, we match the accuracy of the original ResNet-50 on ImageNet
zero-shot without needing to use any of the 1.28 million training examples it
was trained on. We release our code and pre-trained model weights at
https://github.com/OpenAI/CLIP.
- Abstract(参考訳): 最先端のコンピュータビジョンシステムは、所定の対象カテゴリの固定セットを予測するように訓練される。
この制限された形式の監督は、他の視覚概念を特定するためにラベル付きデータを追加する必要があるため、その一般性とユーザビリティを制限します。
画像の生のテキストから直接学ぶことは、はるかに広い監督源を活用する有望な代替手段である。
インターネットから収集した4億(画像,テキスト)ペアのデータセット上で,SOTA画像表現をスクラッチから学習する上で,どのキャプションがどの画像に対応するかを予測するための単純な事前学習タスクが効率的かつスケーラブルであることを示す。
事前トレーニングの後、自然言語は学習した視覚概念を参照(あるいは新しい概念を記述)するために使用され、モデルの下流タスクへのゼロショット転送を可能にする。
我々は,30以上の既存コンピュータビジョンデータセットをベンチマークし,OCR,ビデオ中のアクション認識,地理的局在化,さまざまな種類の細粒度オブジェクト分類など,このアプローチの性能について検討した。
モデルは非自明にほとんどのタスクに転送され、データセット固有のトレーニングを必要とせずに、完全に監督されたベースラインと競合することが多い。
例えば、imagenet zero-shotのオリジナルのresnet-50の精度は、トレーニングした1億2800万のトレーニングサンプルを使用せずに一致します。
コードと事前トレーニング済みのモデルウェイトはhttps://github.com/OpenAI/CLIP.comで公開しています。
関連論文リスト
- Visual Language Pretrained Multiple Instance Zero-Shot Transfer for
Histopathology Images [8.612889476601822]
我々は,ギガピクセルの病理組織像全体に対して,コントラスト整列画像とテキストモデルのゼロショット転送能力を開放するフレームワークMI-Zeroを提案する。
MI-Zeroは、複数のインスタンス学習の枠組みの下でゼロショット転送を再構成し、非常に大きな画像に対する推論の計算課題を克服する。
論文 参考訳(メタデータ) (2023-06-13T15:05:24Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - Vision Learners Meet Web Image-Text Pairs [24.194061585891692]
Webデータの優れたスケーラビリティを考えると、ノイズの多いWebソース画像とテキストのペアデータに対する自己教師付き事前学習を検討する。
マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。
我々は、スケーラブルなWebソース画像テキストデータから学習する新しいビジュアル表現事前学習手法MUlti-modal Generator(MUG)を提案する。
論文 参考訳(メタデータ) (2023-01-17T18:53:24Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Are Large-scale Datasets Necessary for Self-Supervised Pre-training? [29.49873710927313]
対象のタスクデータのみを活用する自己指導型事前学習シナリオについて検討する。
本研究は,BEiTなどのデノイングオートエンコーダが,事前学習データの種類やサイズに対してより堅牢であることを示す。
COCOでは、COCOイメージのみを使用して事前トレーニングを行う場合、検出とインスタンスセグメンテーションのパフォーマンスは、同等の設定で教師付きImageNet事前トレーニングを上回る。
論文 参考訳(メタデータ) (2021-12-20T18:41:32Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and
Linguistic Knowledge from Pretraining [39.24803665848558]
大規模事前学習言語モデル(LM)から言語知識を活用するデータ効率のよい画像キャプションモデルであるVisualGPTを提案する。
少量のインドメイントレーニングデータに予め訓練されたLMを言語デコーダとして迅速に適応させる,新しい自己回復型エンコーダデコーダ注意機構を設計した。
VisualGPTは、MS COCOで最大10.8%のCIDEr、コンセプチュアルキャプションで最大5.4%のCIDErで最高のベースラインモデルを上回る。
論文 参考訳(メタデータ) (2021-02-20T18:02:42Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - VirTex: Learning Visual Representations from Textual Annotations [25.104705278771895]
VirTexは、意味的に密接なキャプションを使用して視覚表現を学習する事前学習のアプローチである。
我々はCOCOキャプションのスクラッチから畳み込みネットワークを訓練し、それらを下流認識タスクに転送する。
すべてのタスクにおいて、VirTexはImageNetで学んだもの(教師なしまたは教師なし)と一致するか、あるいは超える機能を提供します。
論文 参考訳(メタデータ) (2020-06-11T17:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。