論文の概要: Frequency Is What You Need: Word-frequency Masking Benefits Vision-Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2412.16148v2
- Date: Mon, 14 Apr 2025 12:55:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:45:25.115704
- Title: Frequency Is What You Need: Word-frequency Masking Benefits Vision-Language Model Pre-training
- Title(参考訳): 単語周波数のマスキングはビジョンランゲージモデルの事前学習に役立ちます
- Authors: Mingliang Liang, Martha Larson,
- Abstract要約: 視覚言語モデル(VLM)は、トレーニングセットのサイズを小さくできれば、より効率的にトレーニングすることができる。
最近の研究は、様々なアプローチを用いたVLMトレーニングにおけるテキストマスキングの利点を示している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Vision Language Models (VLMs) can be trained more efficiently if training sets can be reduced in size. Recent work has shown the benefits of masking text during VLM training using a variety of approaches: truncation, random masking, block masking and syntax masking. In this paper, we show that the best masking strategy changes over training epochs and that, given sufficient training epochs. We analyze existing text masking approaches including syntax masking, which is currently the state of the art, and identify the word frequency distribution as important in determining their success. Experiments on a large range of data sets demonstrate that syntax masking is outperformed by other approaches, given sufficient epochs, and that our proposed frequency-based approach, called Contrastive Language-Image Pre-training with Word Frequency Masking (CLIPF) has numerous advantages. The benefits are particularly evident as the number of input tokens decreases.
- Abstract(参考訳): 視覚言語モデル(VLM)は、トレーニングセットのサイズを小さくできれば、より効率的にトレーニングすることができる。
最近の研究は、切り抜き、ランダムマスキング、ブロックマスキング、構文マスキングといった様々なアプローチを用いて、VLMトレーニング中にテキストをマスキングする利点を示している。
本稿では,トレーニングエポックよりも最高のマスキング戦略が変化し,十分なトレーニングエポックが与えられることを示す。
我々は,現在最先端の構文マスキングを含む既存のテキストマスキング手法を分析し,その成功を決定する上で重要な単語頻度分布を同定する。
大量のデータセットに対する実験により、構文マスキングは十分なエポックを与えられた場合の他のアプローチよりも優れており、提案手法は Contrastive Language-Image Pre-training with Word Frequency Masking (CLIPF) と呼ばれる多くの利点があることが示された。
入力トークンの数が減少するにつれて、そのメリットは特に顕著である。
関連論文リスト
- Enhancing Vision-Language Model Pre-training with Image-text Pair Pruning Based on Word Frequency [0.0]
本稿では,新しいデータプルーニング手法であるWFPPを提案する。
WFPPはトレーニングデータセット全体にわたって、高周波ワードを含むテキストイメージペアをプルーフする。
実験により,CLIPモデルのトレーニングにおけるWFPPの適用により,幅広い下流タスクのパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2024-10-09T11:54:41Z) - Efficient Vision-Language Pre-training by Cluster Masking [13.845233914223561]
本稿では,視覚的コントラスト学習における画像パッチのマスキング方法を提案する。
画像パッチをランダムにマスキングし,画像の画素強度を計測した。
これは、文脈からのみマスクされた視覚構造のための単語を予測することをモデルに強制するため、対照的なトレーニング自体を超えて、余分な学習信号を提供する。
論文 参考訳(メタデータ) (2024-05-14T17:59:40Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Self-Evolution Learning for Discriminative Language Model Pretraining [103.57103957631067]
自己進化学習(Self-Evolution Learning、SE)は、単純で効果的なトークンマスキングと学習方法である。
SEは情報的だが未探索のトークンを学習することに集中し、新しいToken固有のラベル平滑化アプローチを導入してトレーニングを適応的に調整する。
論文 参考訳(メタデータ) (2023-05-24T16:00:54Z) - Uniform Masking Prevails in Vision-Language Pretraining [26.513450527203453]
Masked Language Modeling (MLM) は、Vision-Language (VL) プリトレーニングの重要なコンポーネントであることが証明されている。
本稿では,マスキング率の増加が画像テキストマッチング(ITM)タスクの増大につながることを示す。
論文 参考訳(メタデータ) (2022-12-10T04:02:19Z) - Scaling Language-Image Pre-training via Masking [63.36988191660858]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。
マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。
FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文 参考訳(メタデータ) (2022-12-01T18:59:57Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - Learning Better Masking for Better Language Model Pre-training [80.31112722910787]
Masked Language Modelingは、事前学習言語モデル(PrLM)の目的を認知するために広く使われている。
PrLMは、固定マスキング比を適用し、トレーニング全体を通して異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略を採用するのが一般的である。
本研究では,異なるトレーニング段階におけるマスキング率とマスキング内容の調整を適応的に行う2つのマスク手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T08:27:52Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Data Efficient Masked Language Modeling for Vision and Language [16.95631509102115]
Masked Language Modeling (MLM) は視覚言語訓練における重要なサブタスクの1つである。
クロスモーダル設定では、文中のトークンはランダムにマスキングされ、モデルは画像とテキストが与えられたマスキングトークンを予測する。
これらの欠点に対処するクロスモーダル設定に特有な代替マスキング戦略について検討する。
論文 参考訳(メタデータ) (2021-09-05T11:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。