論文の概要: MOFI: Learning Image Representations from Noisy Entity Annotated Images
- arxiv url: http://arxiv.org/abs/2306.07952v2
- Date: Sat, 24 Jun 2023 19:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 22:02:25.986521
- Title: MOFI: Learning Image Representations from Noisy Entity Annotated Images
- Title(参考訳): MOFI:ノイズのあるエンティティアノテート画像から画像表現を学習する
- Authors: Wentao Wu, Aleksei Timofeev, Chen Chen, Bowen Zhang, Kun Duan,
Shuangning Liu, Yantao Zheng, Jon Shlens, Xianzhi Du, Zhe Gan, Yinfei Yang
- Abstract要約: ノイズの多い実体画像から画像表現を学習するための新しい視覚基盤モデルMOFIを提案する。
MOFIは、事前トレーニングデータ($i$)とトレーニングレシピ($ii$)の2つの重要な側面において、以前のものと異なる。
ノイズの多い画像とテキストのペアから画像にエンティティラベルを自動的に割り当てる手法を提案する。
- 参考スコア(独自算出の注目度): 45.991037315528715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MOFI, a new vision foundation model designed to learn image
representations from noisy entity annotated images. MOFI differs from previous
work in two key aspects: ($i$) pre-training data, and ($ii$) training recipe.
Regarding data, we introduce a new approach to automatically assign entity
labels to images from noisy image-text pairs. Our approach involves employing a
named entity recognition model to extract entities from the alt-text, and then
using a CLIP model to select the correct entities as labels of the paired
image. The approach is simple, does not require costly human annotation, and
can be readily scaled up to billions of image-text pairs mined from the web.
Through this method, we have created Image-to-Entities (I2E), a new large-scale
dataset with 1 billion images and 2 million distinct entities, covering rich
visual concepts in the wild. Building upon the I2E dataset, we study different
training recipes, including supervised pre-training, contrastive pre-training,
and multi-task learning. For constrastive pre-training, we treat entity names
as free-form text, and further enrich them with entity descriptions.
Experiments show that supervised pre-training with large-scale fine-grained
entity labels is highly effective for image retrieval tasks, and multi-task
training further improves the performance. The final MOFI model achieves 86.66%
mAP on the challenging GPR1200 dataset, surpassing the previous
state-of-the-art performance of 72.19% from OpenAI's CLIP model. Further
experiments on zero-shot and linear probe image classification also show that
MOFI outperforms a CLIP model trained on the original image-text data,
demonstrating the effectiveness of the I2E dataset in learning strong image
representations.
- Abstract(参考訳): ノイズのあるエンティティアノテート画像から画像表現を学習するための新しい視覚基盤モデルMOFIを提案する。
MOFIは、事前トレーニングデータ($i$)とトレーニングレシピ($ii$)の2つの重要な側面において、以前のものと異なる。
データに関しては、ノイズの多い画像テキストペアの画像にエンティティラベルを自動的に割り当てる新しいアプローチを導入する。
提案手法では、アルトテキストからエンティティを抽出するために名前付きエンティティ認識モデルを使用し、CLIPモデルを用いて、ペア画像のラベルとして正しいエンティティを選択する。
このアプローチは単純で、コストのかかる人間のアノテーションを必要としない。webから採掘された数十億もの画像テキストペアを簡単にスケールできる。
この方法で、我々は10億の画像と200万の異なるエンティティを持つ新しい大規模データセットであるImage-to-Entities (I2E)を開発した。
i2eデータセットに基づいて,教師付き事前学習,コントラスト型事前学習,マルチタスク学習など,さまざまなトレーニングレシピを調査した。
構成的事前学習では、エンティティ名を自由形式のテキストとして扱い、エンティティ記述をさらに強化する。
実験により,大規模粒度ラベルによる教師付き事前学習が画像検索作業に極めて有効であることが示され,マルチタスクトレーニングによりパフォーマンスが向上した。
最後のMOFIモデルは、挑戦的なGPR1200データセット上で86.66%のmAPを達成し、OpenAIのCLIPモデルから72.19%の最先端パフォーマンスを達成している。
ゼロショットおよび線形プローブ画像分類に関するさらなる実験により、MOFIは元の画像テキストデータに基づいて訓練されたCLIPモデルよりも優れており、強い画像表現の学習におけるI2Eデータセットの有効性が示されている。
関連論文リスト
- IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - Improve Supervised Representation Learning with Masked Image Modeling [30.30649867772395]
マスク付き画像モデリングを既存の教師付きトレーニングパラダイムに簡単に統合できる,シンプルで効果的なセットアップを提案する。
アーキテクチャの変更は最小限であり、この設定が学習した表現の質を向上させることができるという仮定のオーバーヘッドはない。
論文 参考訳(メタデータ) (2023-12-01T22:03:25Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Neural Congealing: Aligning Images to a Joint Semantic Atlas [14.348512536556413]
画像の集合を横断的に意味的に共通するコンテンツを調整するための,ゼロショットの自己教師型フレームワークを提案する。
提案手法は,DINO-ViTの事前学習能力を利用して学習する。
提案手法は,大規模データセットに対する広範囲なトレーニングを必要とする最先端の手法と比較して,好適に動作することを示す。
論文 参考訳(メタデータ) (2023-02-08T09:26:22Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。