論文の概要: Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment
- arxiv url: http://arxiv.org/abs/2302.00902v2
- Date: Fri, 3 Feb 2023 05:06:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 12:08:29.538104
- Title: Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment
- Title(参考訳): 言語量子化オートエンコーダ:教師なしテキスト画像アライメントに向けて
- Authors: Hao Liu, Wilson Yan, Pieter Abbeel
- Abstract要約: Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
- 参考スコア(独自算出の注目度): 81.73717488887938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in scaling up large language models has shown impressive
capabilities in performing few-shot learning across a wide range of text-based
tasks. However, a key limitation is that these language models fundamentally
lack visual perception - a crucial attribute needed to extend these models to
be able to interact with the real world and solve vision tasks, such as in
visual-question answering and robotics. Prior works have largely connected
image to text through pretraining and/or fine-tuning on curated image-text
datasets, which can be a costly and expensive process. In order to resolve this
limitation, we propose a simple yet effective approach called
Language-Quantized AutoEncoder (LQAE), a modification of VQ-VAE that learns to
align text-image data in an unsupervised manner by leveraging pretrained
language models (e.g., BERT, RoBERTa). Our main idea is to encode image as
sequences of text tokens by directly quantizing image embeddings using a
pretrained language codebook. We then apply random masking followed by a BERT
model, and have the decoder reconstruct the original image from BERT predicted
text token embeddings. By doing so, LQAE learns to represent similar images
with similar clusters of text tokens, thereby aligning these two modalities
without the use of aligned text-image pairs. This enables few-shot image
classification with large language models (e.g., GPT-3) as well as linear
classification of images based on BERT text features. To the best of our
knowledge, our work is the first work that uses unaligned images for multimodal
tasks by leveraging the power of pretrained language models.
- Abstract(参考訳): 大規模言語モデルのスケールアップにおける最近の進歩は、さまざまなテキストベースのタスクで、わずかなショットで学習する能力を示している。
しかし、重要な制限は、これらの言語モデルが基本的に視覚知覚を欠いていることである - 視覚問合せやロボット工学のような、現実世界と対話し、視覚タスクを解決するためにこれらのモデルを拡張するために必要となる重要な属性である。
以前の作品は、キュレートされた画像テキストデータセットの事前トレーニングと/または微調整を通じて、画像とテキストをほぼ接続しており、コストとコストのかかるプロセスである。
この制限を解決するために,言語量化オートエンコーダ(lqae)と呼ばれる,事前学習された言語モデル(bert,robertaなど)を活用して,教師なしの方法でテキスト画像データのアラインメントを学ぶvq-vaeの改良手法を提案する。
我々の主な考え方は、事前訓練された言語コードブックを用いて画像埋め込みを直接定量化することで、画像をテキストトークンのシーケンスとしてエンコードすることである。
次に、無作為マスキングとBERTモデルを適用し、デコーダがBERT予測テキストトークン埋め込みから元の画像を再構成する。
これにより、LQAEは類似した画像と類似したテキストトークンのクラスタを表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類やBERTテキストの特徴に基づく画像の線形分類が可能になる。
私たちの知る限りでは,事前学習した言語モデルのパワーを活用することで,マルチモーダルタスクに不整合なイメージを使用する最初の作業です。
関連論文リスト
- Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - CLIP-GEN: Language-Free Training of a Text-to-Image Generator with CLIP [17.861540412002967]
一般的なテキスト・画像生成のための自己教師型スキームであるCLIP-GENを提案する。
提案手法では,テキスト・ツー・イメージ・ジェネレータをトレーニングするには,一般領域におけるラベルなし画像のセットのみが必要となる。
本手法は画像品質の点で最適化に基づくテキスト・画像の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-01T12:11:32Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal
Transformers [46.275416873403614]
我々はPixel-BERTを提案し,画像画素とテキストとの整合性を深層マルチモーダル変換器で学習し,視覚と言語の埋め込みを共同で学習する。
私たちのアプローチでは、VQA(Visual Question Answering)、画像テキスト検索、Natural Language for Visual Reasoning for Real(NLVR)など、下流タスクの最先端技術を実現しています。
論文 参考訳(メタデータ) (2020-04-02T07:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。