論文の概要: Centered Masking for Language-Image Pre-Training
- arxiv url: http://arxiv.org/abs/2403.15837v2
- Date: Wed, 27 Mar 2024 08:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 11:48:28.238480
- Title: Centered Masking for Language-Image Pre-Training
- Title(参考訳): 言語画像事前学習のための中心型マスキング
- Authors: Mingliang Liang, Martha Larson,
- Abstract要約: 言語画像事前学習(GLIP)のためのガウスマスキングについて紹介する。
GLIPは視覚言語モデルの事前学習中に画像パッチをマスキングする新しい、単純で効果的な手法である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce Gaussian masking for Language-Image Pre-Training (GLIP) a novel, straightforward, and effective technique for masking image patches during pre-training of a vision-language model. GLIP builds on Fast Language-Image Pre-Training (FLIP), which randomly masks image patches while training a CLIP model. GLIP replaces random masking with centered masking, that uses a Gaussian distribution and is inspired by the importance of image patches at the center of the image. GLIP retains the same computational savings as FLIP, while improving performance across a range of downstream datasets and tasks, as demonstrated by our experimental results. We show the benefits of GLIP to be easy to obtain, requiring no delicate tuning of the Gaussian, and also applicable to data sets containing images without an obvious center focus.
- Abstract(参考訳): 言語画像事前学習のためのガウスマスキング(GLIP)について,視覚言語モデルの事前学習中に画像パッチをマスキングするための,新しい,単純かつ効果的な手法を提案する。
GLIPはFast Language- Image Pre-Training (FLIP)上に構築されており、CLIPモデルのトレーニング中に画像パッチをランダムにマスクする。
GLIPは、画像の中心にある画像パッチの重要性にインスパイアされたガウス分布を用いた、ランダムマスキングを中心マスキングに置き換える。
実験結果から示すように,GLIPはFLIPと同じ計算コストを保ちながら,下流のデータセットやタスクにまたがるパフォーマンスを改善している。
GLIPの利点は容易に得ることができ、ガウスの微妙なチューニングを必要とせず、また画像を含むデータセットに適用できることを示す。
関連論文リスト
- MaskCLIP++: A Mask-Based CLIP Fine-tuning Framework for Open-Vocabulary Image Segmentation [109.19165503929992]
オープン語彙画像のセグメンテーションはマスク生成器と視覚言語モデルとの相乗効果によって進歩している。
MaskCLIP++と呼ばれる新しい微調整フレームワークを提案し、このフレームワークは生成されたマスクの代わりにグラウンドトルースマスクを使用する。
我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文 参考訳(メタデータ) (2024-12-16T05:44:45Z) - Efficient Vision-Language Pre-training by Cluster Masking [13.845233914223561]
本稿では,視覚的コントラスト学習における画像パッチのマスキング方法を提案する。
画像パッチをランダムにマスキングし,画像の画素強度を計測した。
これは、文脈からのみマスクされた視覚構造のための単語を予測することをモデルに強制するため、対照的なトレーニング自体を超えて、余分な学習信号を提供する。
論文 参考訳(メタデータ) (2024-05-14T17:59:40Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Scaling Language-Image Pre-training via Masking [63.36988191660858]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。
マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。
FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文 参考訳(メタデータ) (2022-12-01T18:59:57Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。