論文の概要: Frequency Is What You Need: Word-frequency Masking Benefits Vision-Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2412.16148v1
- Date: Fri, 20 Dec 2024 18:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:41.351861
- Title: Frequency Is What You Need: Word-frequency Masking Benefits Vision-Language Model Pre-training
- Title(参考訳): 単語周波数のマスキングはビジョンランゲージモデルの事前学習に役立ちます
- Authors: Mingliang Liang, Martha Larson,
- Abstract要約: 視覚言語モデル(VLM)は、トレーニングセットのサイズを小さくできれば、より効率的にトレーニングすることができる。
最近の研究は、様々なアプローチを用いたVLMトレーニングにおけるテキストマスキングの利点を示している。
トレーニングのエポックよりも最高のマスキング戦略が変化し、十分なトレーニングのエポックを考慮すれば、ワード頻度情報は最高のパフォーマンスを達成するために必要なものであることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Vision Language Models (VLMs) can be trained more efficiently if training sets can be reduced in size. Recent work has shown the benefits of masking text during VLM training using a variety of approaches: truncation, random masking, block masking and syntax masking. In this paper, we show that the best masking strategy changes over training epochs and that, given sufficient training epochs, word frequency information is what you need to achieve the best performance. Experiments on a large range of data sets demonstrate the advantages of our approach, called Contrastive Language-Image Pre-training with word Frequency Masking (CLIPF). The benefits are particularly evident as the number of input tokens decreases. We analyze the impact of CLIPF vs. other masking approaches on word frequency balance and discuss the apparently critical contribution of CLIPF in maintaining word frequency balance across POS categories.
- Abstract(参考訳): 視覚言語モデル(VLM)は、トレーニングセットのサイズを小さくできれば、より効率的にトレーニングすることができる。
最近の研究は、切り抜き、ランダムマスキング、ブロックマスキング、構文マスキングといった様々なアプローチを用いて、VLMトレーニング中にテキストをマスキングする利点を示している。
本稿では,学習のエポックよりも最高のマスキング戦略が変化し,十分なトレーニングのエポックさを考慮すれば,最高のパフォーマンスを達成するためには,単語の頻度情報が必要であることを示す。
広帯域データセットを用いた実験により,CLIPFを用いたコントラスト言語画像事前学習(Contrastive Language- Image Pre-training with word Frequency Masking, CLIPF)と呼ばれるアプローチの利点が示された。
入力トークンの数が減少するにつれて、そのメリットは特に顕著である。
CLIPFと他のマスキング手法が単語周波数バランスに与える影響を分析し、POSカテゴリ間の単語周波数バランスを維持する上でCLIPFが明らかに重要な貢献を議論する。
関連論文リスト
- Enhancing Vision-Language Model Pre-training with Image-text Pair Pruning Based on Word Frequency [0.0]
本稿では,新しいデータプルーニング手法であるWFPPを提案する。
WFPPはトレーニングデータセット全体にわたって、高周波ワードを含むテキストイメージペアをプルーフする。
実験により,CLIPモデルのトレーニングにおけるWFPPの適用により,幅広い下流タスクのパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2024-10-09T11:54:41Z) - Efficient Vision-Language Pre-training by Cluster Masking [13.845233914223561]
本稿では,視覚的コントラスト学習における画像パッチのマスキング方法を提案する。
画像パッチをランダムにマスキングし,画像の画素強度を計測した。
これは、文脈からのみマスクされた視覚構造のための単語を予測することをモデルに強制するため、対照的なトレーニング自体を超えて、余分な学習信号を提供する。
論文 参考訳(メタデータ) (2024-05-14T17:59:40Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Self-Evolution Learning for Discriminative Language Model Pretraining [103.57103957631067]
自己進化学習(Self-Evolution Learning、SE)は、単純で効果的なトークンマスキングと学習方法である。
SEは情報的だが未探索のトークンを学習することに集中し、新しいToken固有のラベル平滑化アプローチを導入してトレーニングを適応的に調整する。
論文 参考訳(メタデータ) (2023-05-24T16:00:54Z) - Uniform Masking Prevails in Vision-Language Pretraining [26.513450527203453]
Masked Language Modeling (MLM) は、Vision-Language (VL) プリトレーニングの重要なコンポーネントであることが証明されている。
本稿では,マスキング率の増加が画像テキストマッチング(ITM)タスクの増大につながることを示す。
論文 参考訳(メタデータ) (2022-12-10T04:02:19Z) - Scaling Language-Image Pre-training via Masking [63.36988191660858]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。
マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。
FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文 参考訳(メタデータ) (2022-12-01T18:59:57Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - Learning Better Masking for Better Language Model Pre-training [80.31112722910787]
Masked Language Modelingは、事前学習言語モデル(PrLM)の目的を認知するために広く使われている。
PrLMは、固定マスキング比を適用し、トレーニング全体を通して異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略を採用するのが一般的である。
本研究では,異なるトレーニング段階におけるマスキング率とマスキング内容の調整を適応的に行う2つのマスク手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T08:27:52Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Data Efficient Masked Language Modeling for Vision and Language [16.95631509102115]
Masked Language Modeling (MLM) は視覚言語訓練における重要なサブタスクの1つである。
クロスモーダル設定では、文中のトークンはランダムにマスキングされ、モデルは画像とテキストが与えられたマスキングトークンを予測する。
これらの欠点に対処するクロスモーダル設定に特有な代替マスキング戦略について検討する。
論文 参考訳(メタデータ) (2021-09-05T11:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。