論文の概要: SimVLM: Simple Visual Language Model Pretraining with Weak Supervision
- arxiv url: http://arxiv.org/abs/2108.10904v1
- Date: Tue, 24 Aug 2021 18:14:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 13:10:52.970464
- Title: SimVLM: Simple Visual Language Model Pretraining with Weak Supervision
- Title(参考訳): SimVLM: Weak Supervisionでトレーニングするシンプルなビジュアル言語モデル
- Authors: Zirui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov, Yuan
Cao
- Abstract要約: SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
- 参考スコア(独自算出の注目度): 48.98275876458666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With recent progress in joint modeling of visual and textual representations,
Vision-Language Pretraining (VLP) has achieved impressive performance on many
multimodal downstream tasks. However, the requirement for expensive annotations
including clean image captions and regional labels limits the scalability of
existing approaches, and complicates the pretraining procedure with the
introduction of multiple dataset-specific objectives. In this work, we relax
these constraints and present a minimalist pretraining framework, named Simple
Visual Language Model (SimVLM). Unlike prior work, SimVLM reduces the training
complexity by exploiting large-scale weak supervision, and is trained
end-to-end with a single prefix language modeling objective. Without utilizing
extra data or task-specific customization, the resulting model significantly
outperforms previous pretraining methods and achieves new state-of-the-art
results on a wide range of discriminative and generative vision-language
benchmarks, including VQA (+3.74% vqa-score), NLVR2 (+1.17% accuracy), SNLI-VE
(+1.37% accuracy) and image captioning tasks (+10.1% average CIDEr score).
Furthermore, we demonstrate that SimVLM acquires strong generalization and
transfer ability, enabling zero-shot behavior including open-ended visual
question answering and cross-modality transfer.
- Abstract(参考訳): 視覚表現とテキスト表現の結合モデリングの最近の進歩により、視覚言語前訓練(vlp)は多くのマルチモーダル下流タスクで印象的なパフォーマンスを達成している。
しかし、クリーンな画像キャプションや地域ラベルを含む高価なアノテーションの要求は、既存のアプローチのスケーラビリティを制限し、複数のデータセット固有の目的を導入することで事前学習手順を複雑化する。
本研究では,これらの制約を緩和し,SimVLM(Simple Visual Language Model)という最小限の事前学習フレームワークを提案する。
従来の作業と異なり、SimVLMは大規模な弱監視を利用してトレーニングの複雑さを減らし、単一のプレフィックス言語モデリング目的でエンドツーエンドにトレーニングされる。
VQA(+3.74% vqa-score)、NLVR2(+1.17%精度)、SNLI-VE(+1.37%精度)、画像キャプションタスク(+10.1%平均CIDErスコア)など、様々な差別的で生成的な視覚言語ベンチマークにおいて、結果として得られたモデルは、以前の事前学習方法よりも大幅に優れ、新しい最先端の成果が得られる。
さらに、SimVLMは強力な一般化と伝達能力を獲得し、オープンな視覚的質問応答やモダリティ間移動を含むゼロショット動作を可能にすることを実証する。
関連論文リスト
- Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment
Analysis [25.482853330324748]
近年,マルチモーダル・アスペクトベース感性分析 (MABSA) が注目されている。
i) クロスモーダルアライメントを無視した事前学習された視覚モデルとテキストモデル、または(ii) 一般的な事前学習タスクで事前訓練された視覚的なきめ細やかなモデルのいずれかを使用する。
我々は,MABSA(MABSA)のためのタスク固有のビジョンランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-17T08:44:00Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - MAGMA -- Multimodal Augmentation of Generative Models through
Adapter-based Finetuning [11.339580074756189]
MAGMAは、アダプタベースの微調整を用いて、追加のモダリティで生成言語モデルを拡張するための簡単な方法である。
視覚入力とテキスト入力の任意の組み合わせからテキストを自動回帰生成する一連のVLモデルを訓練する。
論文 参考訳(メタデータ) (2021-12-09T23:58:45Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。