論文の概要: VirTex: Learning Visual Representations from Textual Annotations
- arxiv url: http://arxiv.org/abs/2006.06666v3
- Date: Sat, 25 Sep 2021 23:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:35:11.126950
- Title: VirTex: Learning Visual Representations from Textual Annotations
- Title(参考訳): VirTex: テキストアノテーションから視覚表現を学ぶ
- Authors: Karan Desai, Justin Johnson
- Abstract要約: VirTexは、意味的に密接なキャプションを使用して視覚表現を学習する事前学習のアプローチである。
我々はCOCOキャプションのスクラッチから畳み込みネットワークを訓練し、それらを下流認識タスクに転送する。
すべてのタスクにおいて、VirTexはImageNetで学んだもの(教師なしまたは教師なし)と一致するか、あるいは超える機能を提供します。
- 参考スコア(独自算出の注目度): 25.104705278771895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The de-facto approach to many vision tasks is to start from pretrained visual
representations, typically learned via supervised training on ImageNet. Recent
methods have explored unsupervised pretraining to scale to vast quantities of
unlabeled images. In contrast, we aim to learn high-quality visual
representations from fewer images. To this end, we revisit supervised
pretraining, and seek data-efficient alternatives to classification-based
pretraining. We propose VirTex -- a pretraining approach using semantically
dense captions to learn visual representations. We train convolutional networks
from scratch on COCO Captions, and transfer them to downstream recognition
tasks including image classification, object detection, and instance
segmentation. On all tasks, VirTex yields features that match or exceed those
learned on ImageNet -- supervised or unsupervised -- despite using up to ten
times fewer images.
- Abstract(参考訳): 多くのビジョンタスクに対するデファクトなアプローチは、通常imagenetで教師付きトレーニングを通じて学習される、事前訓練されたビジュアル表現から始めることである。
最近の手法では、教師なしの事前訓練を行い、大量のラベルなし画像にスケールする。
対照的に、より少ない画像から高品質な視覚表現を学習することを目指している。
この目的のために,教師付き事前学習を再検討し,分類に基づく事前学習に対するデータ効率の高い代替手段を求める。
virtex -- セマンティックに密接なキャプションを使用して視覚的表現を学ぶ事前トレーニングアプローチを提案する。私たちはcocoキャプションをスクラッチからトレーニングし、イメージ分類、オブジェクト検出、インスタンスセグメンテーションを含む下流認識タスクにそれらを転送する。すべてのタスクにおいてvirtexは、imagenetで学習した機能に匹敵する機能 -- 教師付きあるいは教師なし -- を生成する。
関連論文リスト
- Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - LocTex: Learning Data-Efficient Visual Representations from Localized
Textual Supervision [33.81468149305518]
LocTexはローカライズされたテキストアノテーションを利用してアノテーションの労力を削減する。
ImageNetの教師付き事前トレーニングと比較すると、LocTexは事前トレーニングデータセットのサイズを10倍、ターゲットデータセットを2倍削減できる。
論文 参考訳(メタデータ) (2021-08-26T17:59:07Z) - Unsupervised Object-Level Representation Learning from Scene Images [97.07686358706397]
Object-level Representation Learning (ORL) はシーンイメージに対する新たな自己教師型学習フレームワークである。
我々の重要な洞察は、画像レベルの自己教師付き事前学習を、オブジェクトレベルの意味的対応を見つけるための事前学習として活用することである。
ORLは、複数の下流タスクにおける教師付きImageNet事前学習を超越しても、シーンイメージ上での自己教師型学習のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-06-22T17:51:24Z) - Learning Transferable Visual Models From Natural Language Supervision [13.866297967166089]
画像に関する生のテキストから直接学ぶことは、有望な代替手段だ。
本研究では,どのキャプションがどの画像で動くかを予測する単純な事前学習タスクが,効率よく,スケーラブルな学習方法であることを実証する。
SOTA画像表現は、インターネットから収集された4億(画像、テキスト)のデータセットから学習される。
論文 参考訳(メタデータ) (2021-02-26T19:04:58Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z) - Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks [207.52609682812147]
そこで我々は,Oscar (Object-Semantics Aligned Pre-training) という新しい学習手法を提案する。
画像で検出されたオブジェクトタグをアンカーポイントとして使用することで、アライメントの学習を大幅に容易にする。
我々は、650万のテキストイメージ対のパブリックコーパスでオスカーモデルを事前訓練し、下流のタスクで微調整する。
論文 参考訳(メタデータ) (2020-04-13T19:18:10Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。