論文の概要: MOFI: Learning Image Representations from Noisy Entity Annotated Images
- arxiv url: http://arxiv.org/abs/2306.07952v2
- Date: Sat, 24 Jun 2023 19:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 22:02:25.986521
- Title: MOFI: Learning Image Representations from Noisy Entity Annotated Images
- Title(参考訳): MOFI:ノイズのあるエンティティアノテート画像から画像表現を学習する
- Authors: Wentao Wu, Aleksei Timofeev, Chen Chen, Bowen Zhang, Kun Duan,
Shuangning Liu, Yantao Zheng, Jon Shlens, Xianzhi Du, Zhe Gan, Yinfei Yang
- Abstract要約: ノイズの多い実体画像から画像表現を学習するための新しい視覚基盤モデルMOFIを提案する。
MOFIは、事前トレーニングデータ($i$)とトレーニングレシピ($ii$)の2つの重要な側面において、以前のものと異なる。
ノイズの多い画像とテキストのペアから画像にエンティティラベルを自動的に割り当てる手法を提案する。
- 参考スコア(独自算出の注目度): 45.991037315528715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MOFI, a new vision foundation model designed to learn image
representations from noisy entity annotated images. MOFI differs from previous
work in two key aspects: ($i$) pre-training data, and ($ii$) training recipe.
Regarding data, we introduce a new approach to automatically assign entity
labels to images from noisy image-text pairs. Our approach involves employing a
named entity recognition model to extract entities from the alt-text, and then
using a CLIP model to select the correct entities as labels of the paired
image. The approach is simple, does not require costly human annotation, and
can be readily scaled up to billions of image-text pairs mined from the web.
Through this method, we have created Image-to-Entities (I2E), a new large-scale
dataset with 1 billion images and 2 million distinct entities, covering rich
visual concepts in the wild. Building upon the I2E dataset, we study different
training recipes, including supervised pre-training, contrastive pre-training,
and multi-task learning. For constrastive pre-training, we treat entity names
as free-form text, and further enrich them with entity descriptions.
Experiments show that supervised pre-training with large-scale fine-grained
entity labels is highly effective for image retrieval tasks, and multi-task
training further improves the performance. The final MOFI model achieves 86.66%
mAP on the challenging GPR1200 dataset, surpassing the previous
state-of-the-art performance of 72.19% from OpenAI's CLIP model. Further
experiments on zero-shot and linear probe image classification also show that
MOFI outperforms a CLIP model trained on the original image-text data,
demonstrating the effectiveness of the I2E dataset in learning strong image
representations.
- Abstract(参考訳): ノイズのあるエンティティアノテート画像から画像表現を学習するための新しい視覚基盤モデルMOFIを提案する。
MOFIは、事前トレーニングデータ($i$)とトレーニングレシピ($ii$)の2つの重要な側面において、以前のものと異なる。
データに関しては、ノイズの多い画像テキストペアの画像にエンティティラベルを自動的に割り当てる新しいアプローチを導入する。
提案手法では、アルトテキストからエンティティを抽出するために名前付きエンティティ認識モデルを使用し、CLIPモデルを用いて、ペア画像のラベルとして正しいエンティティを選択する。
このアプローチは単純で、コストのかかる人間のアノテーションを必要としない。webから採掘された数十億もの画像テキストペアを簡単にスケールできる。
この方法で、我々は10億の画像と200万の異なるエンティティを持つ新しい大規模データセットであるImage-to-Entities (I2E)を開発した。
i2eデータセットに基づいて,教師付き事前学習,コントラスト型事前学習,マルチタスク学習など,さまざまなトレーニングレシピを調査した。
構成的事前学習では、エンティティ名を自由形式のテキストとして扱い、エンティティ記述をさらに強化する。
実験により,大規模粒度ラベルによる教師付き事前学習が画像検索作業に極めて有効であることが示され,マルチタスクトレーニングによりパフォーマンスが向上した。
最後のMOFIモデルは、挑戦的なGPR1200データセット上で86.66%のmAPを達成し、OpenAIのCLIPモデルから72.19%の最先端パフォーマンスを達成している。
ゼロショットおよび線形プローブ画像分類に関するさらなる実験により、MOFIは元の画像テキストデータに基づいて訓練されたCLIPモデルよりも優れており、強い画像表現の学習におけるI2Eデータセットの有効性が示されている。
関連論文リスト
- IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。