論文の概要: CoBIT: A Contrastive Bi-directional Image-Text Generation Model
- arxiv url: http://arxiv.org/abs/2303.13455v1
- Date: Thu, 23 Mar 2023 17:24:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 13:11:56.977276
- Title: CoBIT: A Contrastive Bi-directional Image-Text Generation Model
- Title(参考訳): CoBIT: 対照的な双方向画像テキスト生成モデル
- Authors: Haoxuan You, Mandy Guo, Zhecan Wang, Kai-Wei Chang, Jason Baldridge,
Jiahui Yu
- Abstract要約: CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 72.1700346308106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of vision and language has witnessed a proliferation of pre-trained
foundation models. Most existing methods are independently pre-trained with
contrastive objective like CLIP, image-to-text generative objective like PaLI,
or text-to-image generative objective like Parti. However, the three objectives
can be pre-trained on the same data, image-text pairs, and intuitively they
complement each other as contrasting provides global alignment capacity and
generation grants fine-grained understanding. In this work, we present a
Contrastive Bi-directional Image-Text generation model (CoBIT), which attempts
to unify the three pre-training objectives in one framework. Specifically,
CoBIT employs a novel unicoder-decoder structure, consisting of an image
unicoder, a text unicoder and a cross-modal decoder. The image/text unicoders
can switch between encoding and decoding in different tasks, enabling
flexibility and shared knowledge that benefits both image-to-text and
text-to-image generations. CoBIT achieves superior performance in image
understanding, image-text understanding (Retrieval, Captioning, VQA, SNLI-VE)
and text-based content creation, particularly in zero-shot scenarios. For
instance, 82.7% in zero-shot ImageNet classification, 9.37 FID score in
zero-shot text-to-image generation and 44.8 CIDEr in zero-shot captioning.
- Abstract(参考訳): ビジョンと言語分野は、事前訓練された基礎モデルの拡散を目撃している。
既存のほとんどのメソッドは、CLIPのようなコントラスト目的、PaLIのような画像からテキストへの生成目的、Partiのようなテキストから画像への生成目的と独立に事前訓練されている。
しかし、3つの目的は同じデータ、画像とテキストのペアで事前学習することができ、相互に直感的に補完し、コントラストはグローバルなアライメント能力を提供し、生成はきめ細かな理解を与える。
本研究では,3つの事前学習目標を1つのフレームワークに統合するコントラスト双方向画像テキスト生成モデル(CoBIT)を提案する。
具体的には、cobitは画像unicoder、テキストunicoder、クロスモーダルデコーダからなる新しいunicoder-デコーダ構造を採用している。
イメージ/テキストユニコーダは、異なるタスクにおけるエンコーディングとデコーディングを切り替えることができ、画像からテキストまでの世代とテキストから画像への世代の両方に利益をもたらす柔軟性と知識の共有を可能にする。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
例えば、ゼロショットイメージネット分類では82.7%、ゼロショットテキスト画像生成では9.37 FIDスコア、ゼロショットキャプションでは44.8 CIDErである。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z) - TextCLIP: Text-Guided Face Image Generation And Manipulation Without
Adversarial Training [5.239585892767183]
本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。
提案手法は,テキスト誘導型生成タスクと操作タスクの両方において,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-21T09:34:20Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - L-Verse: Bidirectional Generation Between Image and Text [41.133824156046394]
L-Verseは、AugVAE(Feature-augmented Variational Autoencoder)とBiART(Bidirectional Auto-Regressive Transformer)で構成される新しいアーキテクチャである。
AugVAEは、ImageNet1Kバリデーションセットにおける最先端の再構築性能と、野生の未確認画像に対するロバスト性を示している。
L-Verseは、微調整や余分なオブジェクト検出フレームワークを使わずに、画像からテキスト、テキストから画像を生成するタスクに直接使用することができる。
論文 参考訳(メタデータ) (2021-11-22T11:48:26Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。