論文の概要: Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions
- arxiv url: http://arxiv.org/abs/2010.12831v2
- Date: Sun, 11 Apr 2021 23:54:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 11:50:56.065874
- Title: Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions
- Title(参考訳): 並列画像とキャプションを伴わない教師なし視覚・言語事前学習
- Authors: Liunian Harold Li, Haoxuan You, Zhecan Wang, Alireza Zareian, Shih-Fu
Chang, Kai-Wei Chang
- Abstract要約: 画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
- 参考スコア(独自算出の注目度): 92.47566804182338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained contextual vision-and-language (V&L) models have achieved
impressive performance on various benchmarks. However, existing models require
a large amount of parallel image-caption data for pre-training. Such data are
costly to collect and require cumbersome curation. Inspired by unsupervised
machine translation, we investigate if a strong V&L representation model can be
learned through unsupervised pre-training without image-caption corpora. In
particular, we propose to conduct ``mask-and-predict'' pre-training on
text-only and image-only corpora and introduce the object tags detected by an
object recognition model as anchor points to bridge two modalities. We find
that such a simple approach achieves performance close to a model pre-trained
with aligned data, on four English V&L benchmarks. Our work challenges the
widely held notion that aligned data is necessary for V&L pre-training, while
significantly reducing the amount of supervision needed for V&L models.
- Abstract(参考訳): 事前学習された文脈視覚言語モデル(v&l)は、様々なベンチマークで印象的なパフォーマンスを達成している。
しかし、既存のモデルは事前学習のために大量の並列画像キャプチャーデータを必要とする。
このようなデータは収集にコストがかかり、面倒なキュレーションが必要です。
教師なし機械翻訳に触発されて,画像キャプチャコーパスを使わずに教師なし事前学習により,強いV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみと画像のみのコーパスで ‘mask-and-predict'' をプリトレーニングし,オブジェクト認識モデルによって検出されたオブジェクトタグをアンカーポイントとして導入し,2つのモダリティを橋渡しする。
このような単純なアプローチは、4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近い性能を実現する。
我々の研究は、V&L事前トレーニングにはアライメントデータが必要であるという広く支持されている考え方に挑戦すると同時に、V&Lモデルに必要な監督の量を大幅に削減する。
関連論文リスト
- VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Vision-and-Language Pretraining [19.903012955284698]
本稿では,現代V&L事前学習モデルの総合的な改訂について述べる。
特に、最先端のビジョン・アンド・ランゲージ事前学習モデルの要約とともに、事前学習アプローチの分類とデライン化を行う。
論文 参考訳(メタデータ) (2022-07-05T02:18:49Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。