論文の概要: Self-Training Vision Language BERTs with a Unified Conditional Model
- arxiv url: http://arxiv.org/abs/2201.02010v1
- Date: Thu, 6 Jan 2022 11:00:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-07 18:37:08.827353
- Title: Self-Training Vision Language BERTs with a Unified Conditional Model
- Title(参考訳): 統一条件モデルを用いた自己学習型視覚言語BERT
- Authors: Xiaofeng Yang, Fengmao Lv, Fayao Liu, Guosheng Lin
- Abstract要約: 本稿では,ラベルのない画像データからVL-BERTを学習する自己学習手法を提案する。
ラベル付き画像データを用いて教師モデルを訓練し、トレーニングされたモデルを用いてラベルなし画像データに擬似キャプションを生成する。
提案された自己学習アプローチと、ラベル付けされていない300万の余分なデータを使用することで、競争力やパフォーマンスを向上することが可能になります。
- 参考スコア(独自算出の注目度): 51.11025371762571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language BERTs are trained with language corpus in a self-supervised
manner. Unlike natural language BERTs, vision language BERTs need paired data
to train, which restricts the scale of VL-BERT pretraining. We propose a
self-training approach that allows training VL-BERTs from unlabeled image data.
The proposed method starts with our unified conditional model -- a vision
language BERT model that can perform zero-shot conditional generation. Given
different conditions, the unified conditional model can generate captions,
dense captions, and even questions. We use the labeled image data to train a
teacher model and use the trained model to generate pseudo captions on
unlabeled image data. We then combine the labeled data and pseudo labeled data
to train a student model. The process is iterated by putting the student model
as a new teacher. By using the proposed self-training approach and only 300k
unlabeled extra data, we are able to get competitive or even better
performances compared to the models of similar model size trained with 3
million extra image data.
- Abstract(参考訳): 自然言語BERTは、言語コーパスを自己管理的に訓練する。
自然言語のBERTとは異なり、ビジョン言語BERTはトレーニングのためにペアのデータを必要とし、VL-BERT事前トレーニングの規模を制限する。
ラベルのない画像データからVL-BERTを学習する自己学習手法を提案する。
提案手法は,ゼロショット条件生成が可能な視覚言語BERTモデルである統一条件モデルから始める。
異なる条件によって、統一条件モデルはキャプション、密集したキャプション、さらには質問を生成できる。
教師モデルの学習にはラベル付き画像データを使用し,ラベル付き画像データに擬似キャプションを生成する訓練モデルを用いる。
次にラベル付きデータと擬似ラベル付きデータを組み合わせて学習モデルを構築する。
このプロセスは、学生モデルを新しい教師として配置することで反復される。
提案した自己学習アプローチと、ラベル付けされていない300万の余分なデータを使用することで、300万の余分な画像データでトレーニングされた類似モデルモデルと比較して、競争力やパフォーマンスが向上する。
関連論文リスト
- Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking
BERT Sentence Representations for Hindi and Marathi [0.7874708385247353]
この研究は、ヒンディー語とマラティ語という2つの低リソースのインドの言語に焦点を当てている。
機械翻訳を用いた合成NLIとSTSデータセットを用いて,これらの言語のための文-BERTモデルを訓練する。
我々は,NLI事前学習とSTSbファインチューニングの戦略が,ヒンディー語とマラタイ語の文類似性モデルの生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-21T05:15:48Z) - A Fistful of Words: Learning Transferable Visual Models from
Bag-of-Words Supervision [32.4697157553247]
本稿では,ゼロショット画像分類モデルの学習において,言語指導のどの部分が不可欠かを理解することに焦点を当てる。
単純なBag-of-Words (BoW)キャプションは、データセットのほとんどのイメージキャプションの代替として使用できる。
プレトレーニングされたBoWモデルを用いて,キャプションを持たない画像に擬似BoWキャプションを生成することで,より多くのトレーニングデータを得ることができる。
論文 参考訳(メタデータ) (2021-12-27T20:02:10Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z) - lamBERT: Language and Action Learning Using Multimodal BERT [0.1942428068361014]
本研究では,マルチモーダルBERT(lamBERT)モデルを用いた言語と行動学習を提案する。
実験は、エージェントが適切に振る舞うために言語理解を必要とするグリッド環境で行われる。
lamBERTモデルは、他のモデルと比較してマルチタスク設定や転送設定において高い報酬を得た。
論文 参考訳(メタデータ) (2020-04-15T13:54:55Z) - What the [MASK]? Making Sense of Language-Specific BERT Models [39.54532211263058]
本稿では,言語固有のBERTモデルにおける技術の現状について述べる。
本研究の目的は,言語固有のBERTモデルとmBERTモデルとの共通点と相違点について概説することである。
論文 参考訳(メタデータ) (2020-03-05T20:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。