論文の概要: Training Vision-Language Models with Less Bimodal Supervision
- arxiv url: http://arxiv.org/abs/2211.00262v1
- Date: Tue, 1 Nov 2022 04:07:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 12:58:16.382286
- Title: Training Vision-Language Models with Less Bimodal Supervision
- Title(参考訳): バイモーダル・スーパービジョンの少ないビジョン言語モデル
- Authors: Elad Segal, Ben Bogin, Jonathan Berant
- Abstract要約: このような並列データへの依存度を低減できる範囲について検討する。
バイモーダル監視が3つの視覚言語課題に与える影響を解析する。
VQAv2やGQAのような単純なタスクでは、バイモーダルの監督を完全に排除でき、パフォーマンスの損失はわずかである。
- 参考スコア(独自算出の注目度): 37.945348204453154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard practice in pretraining multimodal models, such as vision-language
models, is to rely on pairs of aligned inputs from both modalities, for
example, aligned image-text pairs. However, such pairs can be difficult to
obtain in low-resource settings and for some modality pairs (e.g., structured
tables and images). In this work, we investigate the extent to which we can
reduce the reliance on such parallel data, which we term \emph{bimodal
supervision}, and use models that are pretrained on each modality
independently. We experiment with a high-performing vision-language model, and
analyze the effect of bimodal supervision on three vision-language tasks. We
find that on simpler tasks, such as VQAv2 and GQA, one can eliminate bimodal
supervision completely, suffering only a minor loss in performance. Conversely,
for NLVR2, which requires more complex reasoning, training without bimodal
supervision leads to random performance. Nevertheless, using only 5\% of the
bimodal data (142K images along with their captions), or leveraging weak
supervision in the form of a list of machine-generated labels for each image,
leads to only a moderate degradation compared to using 3M image-text pairs:
74\%$\rightarrow$$\sim$70\%. Our code is available at
https://github.com/eladsegal/less-bimodal-sup.
- Abstract(参考訳): 視覚言語モデルのようなマルチモーダルモデルの事前学習における標準的な実践は、画像テキストペアなど、両方のモダリティからアライメントされた入力のペアに依存することである。
しかし、そのようなペアは低リソース設定やいくつかのモダリティペア(構造化テーブルやイメージなど)では入手が困難である。
本研究では,このような並列データへの依存度を,<emph{bimodal supervision} とよばれる程度に低減し,各モードで事前訓練されたモデルを用いて検討する。
ハイパフォーマンスな視覚言語モデルを用いて実験を行い、バイモーダル監視が3つの視覚言語課題に与える影響を分析する。
VQAv2やGQAのような単純なタスクでは、バイモーダルの監督を完全に排除でき、パフォーマンスの損失はわずかである。
逆に、より複雑な推論を必要とするNLVR2では、バイモーダルな監督のないトレーニングはランダムなパフォーマンスをもたらす。
それにもかかわらず、バイモーダルデータ(キャプションと共に142k画像)の5\%しか使用せず、または各画像のマシン生成ラベルのリストという形で弱い監督を活用すれば、3m画像テキストペアを使用する場合と比較して、適度な低下しか得られない。
私たちのコードはhttps://github.com/eladsegal/less-bimodal-sup.comで利用可能です。
関連論文リスト
- MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。
本稿では,両者の相違に対処するための2段階の枠組みを提案する。
MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。