Fugu-MT 論文翻訳(概要): GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language Pre-training

論文の概要: GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language Pre-training

arxiv url: http://arxiv.org/abs/2208.04060v1
Date: Mon, 8 Aug 2022 11:15:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-09 13:39:22.959232
Title: GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language Pre-training
Title（参考訳）: GRIT-VLP:高能率ビジョンと言語事前学習のためのグループミニバッチサンプリング
Authors: Jaeseok Byun, Taebaek Hwang, Jianlong Fu, and Taesup Moon
Abstract要約: プレトレーニング中の2つの通常適用ステップがプレトレーニングモデルの性能に決定的な影響を及ぼすことを示す。そこで本研究では,IMM 用ハードネガティブサンプルのより効果的なマイニングのために,ミニバッチを適応的にサンプリングする,新しいビジョンと言語事前学習手法を提案する。提案手法は,様々な下流タスクにおいて,計算コストをはるかに削減して,新しい最先端性能を実現する。
参考スコア（独自算出の注目度）: 47.95914618851596
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most of the currently existing vision and language pre-training (VLP) methods have mainly focused on how to extract and align vision and text features. In contrast to the mainstream VLP methods, we highlight that two routinely applied steps during pre-training have crucial impact on the performance of the pre-trained model: in-batch hard negative sampling for image-text matching (ITM) and assigning the large masking probability for the masked language modeling (MLM). After empirically showing the unexpected effectiveness of above two steps, we systematically devise our GRIT-VLP, which adaptively samples mini-batches for more effective mining of hard negative samples for ITM while maintaining the computational cost for pre-training. Our method consists of three components: 1) GRouped mIni-baTch sampling (GRIT) strategy that collects similar examples in a mini-batch, 2) ITC consistency loss for improving the mining ability, and 3) enlarged masking probability for MLM. Consequently, we show our GRIT-VLP achieves a new state-of-the-art performance on various downstream tasks with much less computational cost. Furthermore, we demonstrate that our model is essentially in par with ALBEF, the previous state-of-the-art, only with one-third of training epochs on the same training data. Code is available at https://github.com/jaeseokbyun/GRIT-VLP.
Abstract（参考訳）: 現在既存のvision and language pre-training(vlp)メソッドのほとんどは、視覚とテキストの機能の抽出と調整に重点を置いている。主流のVLP法とは対照的に,事前学習中に適用される2つのステップが事前学習モデルの性能に重大な影響を与えていることが強調される。このような2つのステップの予期せぬ効果を実証的に示した結果,プリトレーニングの計算コストを維持しつつ,itmのハードネガティブなサンプルをより効果的にマイニングするために,ミニバッチを適応的にサンプリングする,grit-vlpを体系的に考案した。我々の方法は3つの構成要素から構成される。 1)ミニバッチに類似したサンプルを収集するグループ化ミニバッチサンプリング(grit)戦略。 2)鉱業能力向上のためのitc一貫性損失とその対策 3) mlmのマスキング確率を大きくした。その結果,我々のgrit-vlpは,計算コストをはるかに少なくして,様々な下流タスクにおいて新たな最先端性能を達成できることを示した。さらに,本モデルが従来の最新技術であるalbefと本質的に同等であり,同じトレーニングデータ上でのトレーニング期間の3分の1に過ぎないことを実証した。コードはhttps://github.com/jaeseokbyun/GRIT-VLPで入手できる。

関連論文リスト

Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文参考訳（メタデータ） (2024-06-21T02:28:37Z)
Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文参考訳（メタデータ） (2024-05-22T06:48:43Z)
TiMix: Text-aware Image Mixing for Effective Vision-Language Pre-training [42.142924806184425]
クロスモーダルなコントラスト学習のための混合データサンプルは、暗黙的にコントラスト損失のレギュレータとして機能する。 TiMixは、既存のメソッドに対してベンチマークした場合、トレーニングデータの量が減り、トレーニング時間が短縮された場合でも、ダウンストリームタスクで同等のパフォーマンスを示す。
論文参考訳（メタデータ） (2023-12-14T12:02:24Z)
VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文参考訳（メタデータ） (2023-12-12T18:58:18Z)
Tuning Language Models as Training Data Generators for Augmentation-Enhanced Few-Shot Learning [30.65315081964461]
プレトレーニング言語モデル(PLM)を用いて、異なる視点から数発の学習を学習する。まず,数発のサンプルに対して自己回帰型PLMをチューニングし,それをジェネレータとして使用して,大量の新規トレーニングサンプルを合成する。我々のアプローチであるFewGenは、GLUEベンチマークの7つの分類タスクに対して、既存の数ショット学習方法よりも総合的に優れた結果が得られる。
論文参考訳（メタデータ） (2022-11-06T06:46:47Z)
Learning New Tasks from a Few Examples with Soft-Label Prototypes [18.363177410917597]
ソフトラベルのプロトタイプ(SLP)に基づく新しい数ショット学習手法を提案する。これまでにないNLPタスク(4,8,16)の学習に重点を置いている。このデータ・リーン・セッティングにおけるテスト作業の大部分において,本手法が優れた性能を発揮することを実験的に実証した。
論文参考訳（メタデータ） (2022-10-31T16:06:48Z)
Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。 MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-03-09T17:26:53Z)
Grid-VLP: Revisiting Grid Features for Vision-Language Pre-training [27.103514548337404]
視覚言語事前学習への既存のアプローチは、境界ボックス(領域)に基づく物体検出器に依存している本稿では,視覚言語事前学習のためのグリッドベースの畳み込み機能を再検討し,高価な地域関連ステップをスキップする。
論文参考訳（メタデータ） (2021-08-21T09:57:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。