論文の概要: GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language
Pre-training
- arxiv url: http://arxiv.org/abs/2208.04060v1
- Date: Mon, 8 Aug 2022 11:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:39:22.959232
- Title: GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language
Pre-training
- Title(参考訳): GRIT-VLP:高能率ビジョンと言語事前学習のためのグループミニバッチサンプリング
- Authors: Jaeseok Byun, Taebaek Hwang, Jianlong Fu, and Taesup Moon
- Abstract要約: プレトレーニング中の2つの通常適用ステップがプレトレーニングモデルの性能に決定的な影響を及ぼすことを示す。
そこで本研究では,IMM 用ハードネガティブサンプルのより効果的なマイニングのために,ミニバッチを適応的にサンプリングする,新しいビジョンと言語事前学習手法を提案する。
提案手法は,様々な下流タスクにおいて,計算コストをはるかに削減して,新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 47.95914618851596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the currently existing vision and language pre-training (VLP) methods
have mainly focused on how to extract and align vision and text features. In
contrast to the mainstream VLP methods, we highlight that two routinely applied
steps during pre-training have crucial impact on the performance of the
pre-trained model: in-batch hard negative sampling for image-text matching
(ITM) and assigning the large masking probability for the masked language
modeling (MLM). After empirically showing the unexpected effectiveness of above
two steps, we systematically devise our GRIT-VLP, which adaptively samples
mini-batches for more effective mining of hard negative samples for ITM while
maintaining the computational cost for pre-training. Our method consists of
three components: 1) GRouped mIni-baTch sampling (GRIT) strategy that collects
similar examples in a mini-batch, 2) ITC consistency loss for improving the
mining ability, and 3) enlarged masking probability for MLM. Consequently, we
show our GRIT-VLP achieves a new state-of-the-art performance on various
downstream tasks with much less computational cost. Furthermore, we demonstrate
that our model is essentially in par with ALBEF, the previous state-of-the-art,
only with one-third of training epochs on the same training data. Code is
available at https://github.com/jaeseokbyun/GRIT-VLP.
- Abstract(参考訳): 現在既存のvision and language pre-training(vlp)メソッドのほとんどは、視覚とテキストの機能の抽出と調整に重点を置いている。
主流のVLP法とは対照的に,事前学習中に適用される2つのステップが事前学習モデルの性能に重大な影響を与えていることが強調される。
このような2つのステップの予期せぬ効果を実証的に示した結果,プリトレーニングの計算コストを維持しつつ,itmのハードネガティブなサンプルをより効果的にマイニングするために,ミニバッチを適応的にサンプリングする,grit-vlpを体系的に考案した。
我々の方法は3つの構成要素から構成される。
1)ミニバッチに類似したサンプルを収集するグループ化ミニバッチサンプリング(grit)戦略。
2)鉱業能力向上のためのitc一貫性損失とその対策
3) mlmのマスキング確率を大きくした。
その結果,我々のgrit-vlpは,計算コストをはるかに少なくして,様々な下流タスクにおいて新たな最先端性能を達成できることを示した。
さらに,本モデルが従来の最新技術であるalbefと本質的に同等であり,同じトレーニングデータ上でのトレーニング期間の3分の1に過ぎないことを実証した。
コードはhttps://github.com/jaeseokbyun/GRIT-VLPで入手できる。
関連論文リスト
- TiMix: Text-aware Image Mixing for Effective Vision-Language
Pre-training [42.142924806184425]
クロスモーダルなコントラスト学習のための混合データサンプルは、暗黙的にコントラスト損失のレギュレータとして機能する。
TiMixは、既存のメソッドに対してベンチマークした場合、トレーニングデータの量が減り、トレーニング時間が短縮された場合でも、ダウンストリームタスクで同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-12-14T12:02:24Z) - VILA: On Pre-training for Visual Language Models [76.545284695932]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Tuning Language Models as Training Data Generators for
Augmentation-Enhanced Few-Shot Learning [30.65315081964461]
プレトレーニング言語モデル(PLM)を用いて、異なる視点から数発の学習を学習する。
まず,数発のサンプルに対して自己回帰型PLMをチューニングし,それをジェネレータとして使用して,大量の新規トレーニングサンプルを合成する。
我々のアプローチであるFewGenは、GLUEベンチマークの7つの分類タスクに対して、既存の数ショット学習方法よりも総合的に優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-06T06:46:47Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z) - Grid-VLP: Revisiting Grid Features for Vision-Language Pre-training [27.103514548337404]
視覚言語事前学習への既存のアプローチは、境界ボックス(領域)に基づく物体検出器に依存している
本稿では,視覚言語事前学習のためのグリッドベースの畳み込み機能を再検討し,高価な地域関連ステップをスキップする。
論文 参考訳(メタデータ) (2021-08-21T09:57:21Z) - Making Pre-trained Language Models Better Few-shot Learners [11.90626040104822]
最近のGPT-3モデルは、自然言語プロンプトといくつかのタスクデモンストレーションを入力コンテキストとして活用することで、驚くべき数ショットパフォーマンスを実現します。
これらの知見に触発されて,より実用的なシナリオで,微調整が計算効率のよい小型言語モデルを用いて,小数点学習の研究を行った。
LM-BFF - 少数の注釈付き例で、言語モデルの微調整のためのシンプルで補完的な技術のスイート - 言語モデルのより良い少数ショット微調整を提示します。
論文 参考訳(メタデータ) (2020-12-31T17:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。