論文の概要: Vision Learners Meet Web Image-Text Pairs
- arxiv url: http://arxiv.org/abs/2301.07088v1
- Date: Tue, 17 Jan 2023 18:53:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 13:16:16.555771
- Title: Vision Learners Meet Web Image-Text Pairs
- Title(参考訳): 視覚学習者がWebイメージテキストペアを語る
- Authors: Bingchen Zhao, Quan Cui, Hao Wu, Osamu Yoshie, Cheng Yang
- Abstract要約: 最近の自己教師付き学習(SSL)手法は、よく計算されたImageNet-1Kデータセットで事前トレーニングされている。
本研究では,Webデータのスケーラビリティに優れたため,ノイズの多いWeb画像とテキストのペアデータに対するSSL事前トレーニングを検討する。
スケーラブルなWeb画像テキストデータのための視覚表現事前学習手法MUlti-modal Generator(MUG)を提案する。
- 参考スコア(独自算出の注目度): 17.70205676306116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most recent self-supervised learning~(SSL) methods are pre-trained on the
well-curated ImageNet-1K dataset. In this work, we consider SSL pre-training on
noisy web image-text paired data due to the excellent scalability of web data.
First, we conduct a benchmark study of representative SSL pre-training methods
on large-scale web data in a fair condition. Methods include single-modal ones
such as MAE and multi-modal ones such as CLIP. We observe that multi-modal
methods cannot outperform single-modal ones on vision transfer learning tasks.
We derive an information-theoretical view to explain the benchmarking results,
which provides insights into designing novel vision learners. Inspired by the
above explorations, we present a visual representation pre-training method,
MUlti-modal Generator~(MUG), for scalable web image-text data. MUG achieves
state-of-the-art transferring performances on a variety of tasks and shows
promising scaling behavior. Models and codes will be made public. Demo
available at https://huggingface.co/spaces/tennant/MUG_caption
- Abstract(参考訳): 最近のself-supervised learning~(ssl)メソッドは、imagenet-1kデータセットで事前トレーニングされている。
本研究では,Webデータのスケーラビリティに優れたため,ノイズの多いWeb画像とテキストのペアデータに対するSSL事前トレーニングを検討する。
まず,大規模なWebデータに対するSSLプリトレーニング手法を公正な条件でベンチマーク研究する。
メソッドには、MAEのようなシングルモーダルなものとCLIPのようなマルチモーダルのものが含まれる。
視覚伝達学習タスクにおいて,マルチモーダル手法は単一モーダル手法よりも優れていない。
我々は,新しい視覚学習者の設計への洞察を提供するベンチマーク結果を説明するための情報理論的視点を導出する。
上記の探索に触発されて、スケーラブルなWeb画像テキストデータのための視覚表現事前学習手法MUlti-modal Generator~(MUG)を提案する。
MUGは様々なタスクにおける最先端の転送性能を実現し、有望なスケーリング動作を示す。
モデルとコードは公開されます。
https://huggingface.co/spaces/tennant/MUG_captionで利用可能なデモ
関連論文リスト
- Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。
学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。
実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文 参考訳(メタデータ) (2024-06-11T17:59:35Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z) - VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。
具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文 参考訳(メタデータ) (2022-06-02T16:14:19Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data [13.68491474904529]
テキスト強化型ビジュアルディープインフォマティクス(TVDIM)を提案する。
自己教師型学習の中核となる考え方は、複数の視点から抽出された特徴間の相互情報の最大化である。
TVDIMは、同じ画像の集合を処理する際に、従来の視覚的自己監督手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-03T12:36:01Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。