論文の概要: Scaling Up Vision-Language Pre-training for Image Captioning
- arxiv url: http://arxiv.org/abs/2111.12233v1
- Date: Wed, 24 Nov 2021 02:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 14:44:11.976353
- Title: Scaling Up Vision-Language Pre-training for Image Captioning
- Title(参考訳): 画像キャプションのための視覚言語事前学習のスケールアップ
- Authors: Xiaowei Hu, Zhe Gan, Jianfeng Wang, Zhengyuan Yang, Zicheng Liu, Yumao
Lu, Lijuan Wang
- Abstract要約: 画像キャプション用LargEスケールiMageカプティオナーであるLEMONについて紹介する。
いくつかの主要な画像キャプションベンチマークにおいて,LEMONが新たな芸術性を達成することを示す。
- 参考スコア(独自算出の注目度): 51.639880603821446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, we have witnessed significant performance boost in the image
captioning task based on vision-language pre-training (VLP). Scale is believed
to be an important factor for this advance. However, most existing work only
focuses on pre-training transformers with moderate sizes (e.g., 12 or 24
layers) on roughly 4 million images. In this paper, we present LEMON, a
LargE-scale iMage captiONer, and provide the first empirical study on the
scaling behavior of VLP for image captioning. We use the state-of-the-art VinVL
model as our reference model, which consists of an image feature extractor and
a transformer model, and scale the transformer both up and down, with model
sizes ranging from 13 to 675 million parameters. In terms of data, we conduct
experiments with up to 200 million image-text pairs which are automatically
collected from web based on the alt attribute of the image (dubbed as ALT200M).
Extensive analysis helps to characterize the performance trend as the model
size and the pre-training data size increase. We also compare different
training recipes, especially for training on large-scale noisy data. As a
result, LEMON achieves new state of the arts on several major image captioning
benchmarks, including COCO Caption, nocaps, and Conceptual Captions. We also
show LEMON can generate captions with long-tail visual concepts when used in a
zero-shot manner.
- Abstract(参考訳): 近年,視覚言語事前学習(VLP)に基づく画像キャプションタスクの大幅な向上が見られた。
スケールはこの進歩の重要な要因であると考えられている。
しかし、既存の作品のほとんどは、約400万枚の画像に適度な大きさ(例えば12層や24層)の事前学習トランスフォーマーのみに焦点を当てている。
本稿では,LargEスケールのiMageカプティオナーであるLEMONについて紹介し,画像キャプション用VLPのスケーリング挙動に関する実験的検討を行った。
我々は,画像特徴抽出器と変圧器モデルからなる参照モデルとして最先端のVinVLモデルを使用し,モデルサイズは13~675万のパラメータで,上下共にスケールする。
データの観点からは、画像のアルト属性(ALT200M)に基づいて、Webから自動的に収集される最大2億の画像テキストペアを用いて実験を行う。
広範な分析は、モデルサイズと事前学習データサイズの増加として、パフォーマンストレンドを特徴付けるのに役立ちます。
また,特に大規模ノイズデータに対するトレーニングにおいて,異なるトレーニングレシピを比較した。
その結果、LEMONはCOCOキャプション、nocaps、Conceptual Captionsなど、いくつかの主要な画像キャプションベンチマークで芸術の新たな状態を達成した。
また、ゼロショットで使用する場合、LEMONは長い尾の視覚概念を持つキャプションを生成できることを示す。
関連論文リスト
- Déjà Vu Memorization in Vision-Language Models [39.51189095703773]
視覚言語モデル(VLM)における記憶量測定のための新しい手法を提案する。
モデルでは、相関や画像キャプションから推測できる範囲を超えて、トレーニング画像中の個々のオブジェクトに関する情報が実際に保持されていることを示す。
サンプルおよび集団レベルでのd'eja vuメモリ化を評価し,最大5000万枚の画像キャプチャーペアで訓練したOpenCLIPにとって重要であることを示す。
論文 参考訳(メタデータ) (2024-02-03T09:55:35Z) - The Solution for the CVPR2023 NICE Image Captioning Challenge [11.37047794237074]
我々はZero-shot Image Captioning Challengeの新たなフロンティアにソリューションを提示する。
この課題には、多くのドメインからの新しい視覚的概念が含まれる。
データレベルでは、Laion-5Bから外部トレーニングデータを収集する。
モデルレベルでは、大規模な視覚言語事前学習モデルであるOFAを使用する。
論文 参考訳(メタデータ) (2023-10-10T09:09:41Z) - Image Captioners Are Scalable Vision Learners Too [61.98796478791261]
画像テキストペアのWebからの事前トレーニングとは対照的に、視覚バックボーンの大規模事前トレーニング戦略としては最も一般的なものの一つである。
以上の結果から,画像キャプションは従来考えられていたよりも強力な事前学習戦略であることが示唆された。
論文 参考訳(メタデータ) (2023-06-13T17:18:01Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - A Fistful of Words: Learning Transferable Visual Models from
Bag-of-Words Supervision [32.4697157553247]
本稿では,ゼロショット画像分類モデルの学習において,言語指導のどの部分が不可欠かを理解することに焦点を当てる。
単純なBag-of-Words (BoW)キャプションは、データセットのほとんどのイメージキャプションの代替として使用できる。
プレトレーニングされたBoWモデルを用いて,キャプションを持たない画像に擬似BoWキャプションを生成することで,より多くのトレーニングデータを得ることができる。
論文 参考訳(メタデータ) (2021-12-27T20:02:10Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。