論文の概要: Image Captioners Are Scalable Vision Learners Too
- arxiv url: http://arxiv.org/abs/2306.07915v5
- Date: Thu, 21 Dec 2023 18:24:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:58:11.557256
- Title: Image Captioners Are Scalable Vision Learners Too
- Title(参考訳): Image Captionersはスケーラブルな視覚学習ツール
- Authors: Michael Tschannen, Manoj Kumar, Andreas Steiner, Xiaohua Zhai, Neil
Houlsby, Lucas Beyer
- Abstract要約: 画像テキストペアのWebからの事前トレーニングとは対照的に、視覚バックボーンの大規模事前トレーニング戦略としては最も一般的なものの一つである。
以上の結果から,画像キャプションは従来考えられていたよりも強力な事前学習戦略であることが示唆された。
- 参考スコア(独自算出の注目度): 61.98796478791261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive pretraining on image-text pairs from the web is one of the most
popular large-scale pretraining strategies for vision backbones, especially in
the context of large multimodal models. At the same time, image captioning on
this type of data is commonly considered an inferior pretraining strategy. In
this paper, we perform a fair comparison of these two pretraining strategies,
carefully matching training data, compute, and model capacity. Using a standard
encoder-decoder transformer, we find that captioning alone is surprisingly
effective: on classification tasks, captioning produces vision encoders
competitive with contrastively pretrained encoders, while surpassing them on
vision & language tasks. We further analyze the effect of the model
architecture and scale, as well as the pretraining data on the representation
quality, and find that captioning exhibits the same or better scaling behavior
along these axes. Overall our results show that plain image captioning is a
more powerful pretraining strategy than was previously believed.
- Abstract(参考訳): webからのイメージテキストペアでのコントラストプリトレーニングは、ビジョンバックボーン、特に大規模マルチモーダルモデルのコンテキストにおいて、最も一般的な大規模プリトレーニング戦略の1つです。
同時に、この種のデータに対する画像キャプションは、一般的に、劣等な事前訓練戦略とみなされる。
本稿では,この2つの事前学習戦略を公正に比較し,学習データ,計算量,モデル容量を慎重にマッチングする。
分類タスクにおいて、キャプションは、視覚と言語タスクでそれらを上回りながら、コントラスト的に事前学習されたエンコーダと競合する視覚エンコーダを生成します。
さらに,モデルアーキテクチャとスケール,および事前学習データが表現品質に与える影響を解析し,これらの軸に沿ってキャプションが同等かそれ以上のスケーリング行動を示すことを見出した。
その結果,画像の字幕化は従来考えられていたよりも強力な事前学習戦略であることが示唆された。
関連論文リスト
- Bidirectional Captioning for Clinically Accurate and Interpretable
Models [4.355562946859011]
視覚言語事前学習は、下流コンピュータビジョンタスクに効率的に転送する高品質な視覚エンコーダを生成することが示されている。
本稿では,放射線学レポートの双方向キャプションを事前学習の一形態として実験し,学習した埋め込みの質と有用性を比較検討した。
以上の結果から, コントラスト前訓練と競合する前訓練型視覚エンコーダ(CheXpert competition multi-label AUC 89.4%)の字幕化は, 臨床的に有意な報告が得られた。
論文 参考訳(メタデータ) (2023-10-30T15:25:29Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - Cross-Modal Similarity-Based Curriculum Learning for Image Captioning [46.18855398491187]
本稿では,事前学習された視覚言語モデルによって計算されたクロスモーダル類似度を用いた画像キャプションの簡易かつ効率的な難易度測定法を提案する。
COCOデータセットとFlickr30kデータセットの実験から,提案手法はベースラインに対する性能と競合収束速度を向上することが示された。
論文 参考訳(メタデータ) (2022-12-14T07:52:36Z) - Large-Scale Bidirectional Training for Zero-Shot Image Captioning [44.17587735943739]
本稿では、画像キャプションをゼロショットにするための効率的なトレーニングと推論のフレームワークであるBITTERSについて紹介する。
大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションの実現の鍵であることを示す。
論文 参考訳(メタデータ) (2022-11-13T00:09:36Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Scaling Up Vision-Language Pre-training for Image Captioning [51.639880603821446]
画像キャプション用LargEスケールiMageカプティオナーであるLEMONについて紹介する。
いくつかの主要な画像キャプションベンチマークにおいて,LEMONが新たな芸術性を達成することを示す。
論文 参考訳(メタデータ) (2021-11-24T02:30:22Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。