論文の概要: GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language
Pre-training
- arxiv url: http://arxiv.org/abs/2208.04060v1
- Date: Mon, 8 Aug 2022 11:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:39:22.959232
- Title: GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language
Pre-training
- Title(参考訳): GRIT-VLP:高能率ビジョンと言語事前学習のためのグループミニバッチサンプリング
- Authors: Jaeseok Byun, Taebaek Hwang, Jianlong Fu, and Taesup Moon
- Abstract要約: プレトレーニング中の2つの通常適用ステップがプレトレーニングモデルの性能に決定的な影響を及ぼすことを示す。
そこで本研究では,IMM 用ハードネガティブサンプルのより効果的なマイニングのために,ミニバッチを適応的にサンプリングする,新しいビジョンと言語事前学習手法を提案する。
提案手法は,様々な下流タスクにおいて,計算コストをはるかに削減して,新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 47.95914618851596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the currently existing vision and language pre-training (VLP) methods
have mainly focused on how to extract and align vision and text features. In
contrast to the mainstream VLP methods, we highlight that two routinely applied
steps during pre-training have crucial impact on the performance of the
pre-trained model: in-batch hard negative sampling for image-text matching
(ITM) and assigning the large masking probability for the masked language
modeling (MLM). After empirically showing the unexpected effectiveness of above
two steps, we systematically devise our GRIT-VLP, which adaptively samples
mini-batches for more effective mining of hard negative samples for ITM while
maintaining the computational cost for pre-training. Our method consists of
three components: 1) GRouped mIni-baTch sampling (GRIT) strategy that collects
similar examples in a mini-batch, 2) ITC consistency loss for improving the
mining ability, and 3) enlarged masking probability for MLM. Consequently, we
show our GRIT-VLP achieves a new state-of-the-art performance on various
downstream tasks with much less computational cost. Furthermore, we demonstrate
that our model is essentially in par with ALBEF, the previous state-of-the-art,
only with one-third of training epochs on the same training data. Code is
available at https://github.com/jaeseokbyun/GRIT-VLP.
- Abstract(参考訳): 現在既存のvision and language pre-training(vlp)メソッドのほとんどは、視覚とテキストの機能の抽出と調整に重点を置いている。
主流のVLP法とは対照的に,事前学習中に適用される2つのステップが事前学習モデルの性能に重大な影響を与えていることが強調される。
このような2つのステップの予期せぬ効果を実証的に示した結果,プリトレーニングの計算コストを維持しつつ,itmのハードネガティブなサンプルをより効果的にマイニングするために,ミニバッチを適応的にサンプリングする,grit-vlpを体系的に考案した。
我々の方法は3つの構成要素から構成される。
1)ミニバッチに類似したサンプルを収集するグループ化ミニバッチサンプリング(grit)戦略。
2)鉱業能力向上のためのitc一貫性損失とその対策
3) mlmのマスキング確率を大きくした。
その結果,我々のgrit-vlpは,計算コストをはるかに少なくして,様々な下流タスクにおいて新たな最先端性能を達成できることを示した。
さらに,本モデルが従来の最新技術であるalbefと本質的に同等であり,同じトレーニングデータ上でのトレーニング期間の3分の1に過ぎないことを実証した。
コードはhttps://github.com/jaeseokbyun/GRIT-VLPで入手できる。
関連論文リスト
- Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - TiMix: Text-aware Image Mixing for Effective Vision-Language
Pre-training [42.142924806184425]
クロスモーダルなコントラスト学習のための混合データサンプルは、暗黙的にコントラスト損失のレギュレータとして機能する。
TiMixは、既存のメソッドに対してベンチマークした場合、トレーニングデータの量が減り、トレーニング時間が短縮された場合でも、ダウンストリームタスクで同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-12-14T12:02:24Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Tuning Language Models as Training Data Generators for
Augmentation-Enhanced Few-Shot Learning [30.65315081964461]
プレトレーニング言語モデル(PLM)を用いて、異なる視点から数発の学習を学習する。
まず,数発のサンプルに対して自己回帰型PLMをチューニングし,それをジェネレータとして使用して,大量の新規トレーニングサンプルを合成する。
我々のアプローチであるFewGenは、GLUEベンチマークの7つの分類タスクに対して、既存の数ショット学習方法よりも総合的に優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-06T06:46:47Z) - Learning New Tasks from a Few Examples with Soft-Label Prototypes [18.363177410917597]
ソフトラベルのプロトタイプ(SLP)に基づく新しい数ショット学習手法を提案する。
これまでにないNLPタスク(4,8,16)の学習に重点を置いている。
このデータ・リーン・セッティングにおけるテスト作業の大部分において,本手法が優れた性能を発揮することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-31T16:06:48Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Grid-VLP: Revisiting Grid Features for Vision-Language Pre-training [27.103514548337404]
視覚言語事前学習への既存のアプローチは、境界ボックス(領域)に基づく物体検出器に依存している
本稿では,視覚言語事前学習のためのグリッドベースの畳み込み機能を再検討し,高価な地域関連ステップをスキップする。
論文 参考訳(メタデータ) (2021-08-21T09:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。