Fugu-MT 論文翻訳(概要): Centered Masking for Language-Image Pre-Training

論文の概要: Centered Masking for Language-Image Pre-Training

arxiv url: http://arxiv.org/abs/2403.15837v2
Date: Wed, 27 Mar 2024 08:54:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 11:48:28.238480
Title: Centered Masking for Language-Image Pre-Training
Title（参考訳）: 言語画像事前学習のための中心型マスキング
Authors: Mingliang Liang, Martha Larson,
Abstract要約: 言語画像事前学習(GLIP)のためのガウスマスキングについて紹介する。 GLIPは視覚言語モデルの事前学習中に画像パッチをマスキングする新しい、単純で効果的な手法である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce Gaussian masking for Language-Image Pre-Training (GLIP) a novel, straightforward, and effective technique for masking image patches during pre-training of a vision-language model. GLIP builds on Fast Language-Image Pre-Training (FLIP), which randomly masks image patches while training a CLIP model. GLIP replaces random masking with centered masking, that uses a Gaussian distribution and is inspired by the importance of image patches at the center of the image. GLIP retains the same computational savings as FLIP, while improving performance across a range of downstream datasets and tasks, as demonstrated by our experimental results. We show the benefits of GLIP to be easy to obtain, requiring no delicate tuning of the Gaussian, and also applicable to data sets containing images without an obvious center focus.
Abstract（参考訳）: 言語画像事前学習のためのガウスマスキング(GLIP)について,視覚言語モデルの事前学習中に画像パッチをマスキングするための,新しい,単純かつ効果的な手法を提案する。 GLIPはFast Language- Image Pre-Training (FLIP)上に構築されており、CLIPモデルのトレーニング中に画像パッチをランダムにマスクする。 GLIPは、画像の中心にある画像パッチの重要性にインスパイアされたガウス分布を用いた、ランダムマスキングを中心マスキングに置き換える。実験結果から示すように,GLIPはFLIPと同じ計算コストを保ちながら,下流のデータセットやタスクにまたがるパフォーマンスを改善している。 GLIPの利点は容易に得ることができ、ガウスの微妙なチューニングを必要とせず、また画像を含むデータセットに適用できることを示す。

関連論文リスト

MaskedCLIP: Bridging the Masked and CLIP Space for Semi-Supervised Medical Vision-Language Pre-training [27.35164449801058]
State-of-the-artメソッドは、視覚言語による事前学習によるペア画像テキストデータと、自己教師付き事前学習による未ペア画像データの両方を活用して基礎モデルを学ぶ。そこで我々は,相乗的マスク付き画像モデリングとコントラスト言語画像事前学習フレームワークMaskedCLIPを提案する。
論文参考訳（メタデータ） (2025-07-23T06:15:54Z)
Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文参考訳（メタデータ） (2025-03-21T12:10:38Z)
High-Quality Mask Tuning Matters for Open-Vocabulary Segmentation [109.19165503929992]
ここでは,CLIPのマスク分類能力を高めるために,生成されたマスクの代わりに接地トラスマスクを使用するMaskCLIP++を提案する。低コストの微調整を経て、MaskCLIP++はマルチドメインデータセットのマスク分類性能を大幅に改善した。我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文参考訳（メタデータ） (2024-12-16T05:44:45Z)
Efficient Vision-Language Pre-training by Cluster Masking [13.845233914223561]
本稿では,視覚的コントラスト学習における画像パッチのマスキング方法を提案する。画像パッチをランダムにマスキングし,画像の画素強度を計測した。これは、文脈からのみマスクされた視覚構造のための単語を予測することをモデルに強制するため、対照的なトレーニング自体を超えて、余分な学習信号を提供する。
論文参考訳（メタデータ） (2024-05-14T17:59:40Z)
Pretrain like Your Inference: Masked Tuning Improves Zero-Shot Composed Image Retrieval [14.986283867293048]
ゼロショット合成画像検索(ZS-CIR)は、テキスト修正と参照画像をクエリとして行い、トリプルトラベルなしでターゲット画像を取得する。現在のZS-CIRの研究は、主に事前訓練された視覚言語モデルの一般化能力に依存している。本稿では,事前学習された視覚言語モデルと下流CIRタスクとのギャップを小さくする,未ラベルで事前学習されたマスク付きチューニング手法を提案する。
論文参考訳（メタデータ） (2023-11-13T02:49:57Z)
ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。 Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文参考訳（メタデータ） (2023-08-16T15:19:52Z)
Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。 MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文参考訳（メタデータ） (2023-06-12T18:12:19Z)
Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文参考訳（メタデータ） (2023-03-12T05:28:55Z)
Scaling Language-Image Pre-training via Masking [63.36988191660858]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。 FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文参考訳（メタデータ） (2022-12-01T18:59:57Z)
Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。提案手法は, 事前学習法と容易に組み合わせることができる。
論文参考訳（メタデータ） (2022-11-20T12:10:53Z)
Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP [45.81698881151867]
Open-vocabulary semantic segmentationは、トレーニング中に見られなかったかもしれないテキスト記述に従って、イメージをセマンティック領域に分割することを目的としている。最近の2段階の手法では、まずクラスに依存しないマスクの提案を生成し、次にCLIPなどの事前訓練された視覚言語モデルを利用してマスク付き領域を分類する。マスクされた画像領域とその対応するテキスト記述の集合上でCLIPを微調整する。特に、COCOで訓練しADE20K-150で評価すると、我々の最良のモデルは29.6% mIoUであり、これは以前の状態より+8.5%高い。
論文参考訳（メタデータ） (2022-10-09T02:57:32Z)
MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。 MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文参考訳（メタデータ） (2022-08-25T17:59:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。