論文の概要: CoCa: Contrastive Captioners are Image-Text Foundation Models
- arxiv url: http://arxiv.org/abs/2205.01917v1
- Date: Wed, 4 May 2022 07:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 14:01:38.347782
- Title: CoCa: Contrastive Captioners are Image-Text Foundation Models
- Title(参考訳): coca:コントラストキャプションは画像テキストの基礎モデル
- Authors: Jiahui Yu, Zirui Wang, Vijay Vasudevan, Legg Yeung, Mojtaba
Seyedhosseini, Yonghui Wu
- Abstract要約: Contrastive Captioner (CoCa) は、画像テキストエンコーダ/デコーダの基礎モデルを事前訓練するための最小限の設計である。
同じ計算グラフを共有することで、2つのトレーニング目標を最小限のオーバーヘッドで効率的に計算する。
CoCaは、幅広い下流タスクに対するゼロショット転送または最小限のタスク特化で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 41.759438751996505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploring large-scale pretrained foundation models is of significant interest
in computer vision because these models can be quickly transferred to many
downstream tasks. This paper presents Contrastive Captioner (CoCa), a
minimalist design to pretrain an image-text encoder-decoder foundation model
jointly with contrastive loss and captioning loss, thereby subsuming model
capabilities from contrastive approaches like CLIP and generative methods like
SimVLM. In contrast to standard encoder-decoder transformers where all decoder
layers attend to encoder outputs, CoCa omits cross-attention in the first half
of decoder layers to encode unimodal text representations, and cascades the
remaining decoder layers which cross-attend to the image encoder for multimodal
image-text representations. We apply a contrastive loss between unimodal image
and text embeddings, in addition to a captioning loss on the multimodal decoder
outputs which predicts text tokens autoregressively. By sharing the same
computational graph, the two training objectives are computed efficiently with
minimal overhead. CoCa is pretrained end-to-end and from scratch on both
web-scale alt-text data and annotated images by treating all labels simply as
text, seamlessly unifying natural language supervision for representation
learning. Empirically, CoCa achieves state-of-the-art performance with
zero-shot transfer or minimal task-specific adaptation on a broad range of
downstream tasks, spanning visual recognition (ImageNet, Kinetics-400/600/700,
Moments-in-Time), crossmodal retrieval (MSCOCO, Flickr30K, MSR-VTT), multimodal
understanding (VQA, SNLI-VE, NLVR2), and image captioning (MSCOCO, NoCaps).
Notably on ImageNet classification, CoCa obtains 86.3% zero-shot top-1
accuracy, 90.6% with a frozen encoder and learned classification head, and new
state-of-the-art 91.0% top-1 accuracy on ImageNet with a finetuned encoder.
- Abstract(参考訳): 大規模に事前訓練された基礎モデルを探索することは、コンピュータビジョンにおいて重要な関心事である。
本稿では,Contrastive Captioner(CoCa)について,コントラスト的損失とキャプション的損失とを併用した画像テキストエンコーダ・デコーダ基礎モデルの事前学習を行い,CLIPのようなコントラスト的アプローチとSimVLMのような生成的手法によるモデル能力の仮定を行う。
すべてのデコーダ層がエンコーダ出力に付随する標準的なエンコーダ・デコーダ変換器とは対照的に、CoCaはデコーダ層前半のクロスアテンションを省略してアンモダルテキスト表現をエンコードし、マルチモーダル画像テキスト表現のためにイメージエンコーダと交差する残りのデコーダ層をカスケードする。
我々は,テキストトークンを自動回帰的に予測するマルチモーダルデコーダ出力のキャプション損失に加えて,非モーダル画像とテキスト埋め込みのコントラストロスを適用した。
同じ計算グラフを共有することにより、2つの訓練対象を最小のオーバーヘッドで効率的に計算する。
CoCaは、すべてのラベルを単にテキストとして扱い、表現学習のための自然言語監督をシームレスに統一することで、Webスケールのalt-textデータとアノテーション付きイメージの両方を、終末から終末まで事前訓練する。
実証的には、CoCaは、画像認識(ImageNet, Kinetics-400/600/700, Moments-in-Time)、クロスモーダル検索(MSCOCO, Flickr30K, MSR-VTT)、マルチモーダル理解(VQA, SNLI-VE, NLVR2)、画像キャプション(MSCOCOCO, NoCaps)など、幅広いダウンストリームタスクに対して、ゼロショット転送または最小のタスク固有適応による最先端のパフォーマンスを達成する。
特にImageNetの分類では、CoCaは86.3%のゼロショットトップ1精度、90.6%の冷凍エンコーダと学習した分類ヘッド、そして精巧なエンコーダでImageNetの91.0%の新しい最先端トップ1精度を得る。
関連論文リスト
- DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Closed-Loop Transcription via Convolutional Sparse Coding [29.75613581643052]
オートエンコーダはしばしばエンコーダやデコーダとして汎用的なディープネットワークを使用するが、解釈が難しい。
本研究では,多段畳み込みスパース符号化(CSC)から画像分布が生成されることを明示的に仮定する。
提案手法は, より構造化され, 解釈可能な表現, より安定した収束, 大規模データセットのスケーラビリティなど, 様々なメリットを享受する。
論文 参考訳(メタデータ) (2023-02-18T14:40:07Z) - CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification
without Concrete Text Labels [28.42405456691034]
本稿では,画像再識別作業における視覚的表現の改善を目的とした2段階戦略を提案する。
鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じて、CLIPのクロスモーダル記述能力をフル活用することだ。
提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
論文 参考訳(メタデータ) (2022-11-25T09:41:57Z) - On the Importance of Image Encoding in Automated Chest X-Ray Report
Generation [4.843654097048771]
胸部X線は、そのアクセシビリティと有効性から最も人気のある医用画像モダリティの1つである。
これらの画像を解釈し、患者の状態を診断できる、よく訓練された放射線科医の慢性的な不足がある。
自動放射線診断レポート生成は 臨床実践において 非常に有用なツールです
論文 参考訳(メタデータ) (2022-11-24T08:02:52Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - End-to-End Transformer Based Model for Image Captioning [1.4303104706989949]
Transformerベースのモデルはイメージキャプションをひとつのステージに統合し、エンドツーエンドのトレーニングを実現する。
モデルは138.2%(シングルモデル)と141.0%(4モデルのアンサンブル)の新しい最先端性能を達成する
論文 参考訳(メタデータ) (2022-03-29T08:47:46Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。