Fugu-MT 論文翻訳(概要): MimCo: Masked Image Modeling Pre-training with Contrastive Teacher

論文の概要: MimCo: Masked Image Modeling Pre-training with Contrastive Teacher

arxiv url: http://arxiv.org/abs/2209.03063v1
Date: Wed, 7 Sep 2022 10:59:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-08 12:35:40.393413
Title: MimCo: Masked Image Modeling Pre-training with Contrastive Teacher
Title（参考訳）: mimco: 対照教師との事前学習によるマスク画像モデリング
Authors: Qiang Zhou, Chaohui Yu, Hao Luo, Zhibin Wang, Hao Li
Abstract要約: Masked Image Modeling (MIM) は自己教師型学習 (SSL) において多くの注目を集めている。可視化は、学習された表現は、特に対照的な学習事前学習に基づく表現に比べて分離しにくいことを示している。そこで本研究では,MIMと2段階事前学習によるコントラスト学習を組み合わせた,新しい,フレキシブルな事前学習フレームワークMimCoを提案する。
参考スコア（独自算出の注目度）: 14.413674270588023
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent masked image modeling (MIM) has received much attention in self-supervised learning (SSL), which requires the target model to recover the masked part of the input image. Although MIM-based pre-training methods achieve new state-of-the-art performance when transferred to many downstream tasks, the visualizations show that the learned representations are less separable, especially compared to those based on contrastive learning pre-training. This inspires us to think whether the linear separability of MIM pre-trained representation can be further improved, thereby improving the pre-training performance. Since MIM and contrastive learning tend to utilize different data augmentations and training strategies, combining these two pretext tasks is not trivial. In this work, we propose a novel and flexible pre-training framework, named MimCo, which combines MIM and contrastive learning through two-stage pre-training. Specifically, MimCo takes a pre-trained contrastive learning model as the teacher model and is pre-trained with two types of learning targets: patch-level and image-level reconstruction losses. Extensive transfer experiments on downstream tasks demonstrate the superior performance of our MimCo pre-training framework. Taking ViT-S as an example, when using the pre-trained MoCov3-ViT-S as the teacher model, MimCo only needs 100 epochs of pre-training to achieve 82.53% top-1 finetuning accuracy on Imagenet-1K, which outperforms the state-of-the-art self-supervised learning counterparts.
Abstract（参考訳）: 近年のマスク付き画像モデリング (MIM) は自己教師付き学習 (SSL) において多くの注目を集めており、入力画像のマスク部分の復元にはターゲットモデルが必要である。 mimに基づく事前学習手法は,多くの下流タスクに移行した場合に新たな最先端性能を実現するが,特にコントラスト学習前学習に基づくものと比較して,学習表現の分離性が低下することが示された。これにより,MIM事前学習表現の線形分離性がさらに向上し,事前学習性能が向上すると考えられる。 MIMとコントラスト学習は、異なるデータ拡張とトレーニング戦略を利用する傾向があるため、これら2つのプレテキストタスクを組み合わせることは簡単ではない。そこで本研究では,MIMと2段階事前学習によるコントラスト学習を組み合わせた,新しいフレキシブルな事前学習フレームワークMimCoを提案する。特に、MimCoは教師モデルとして訓練済みのコントラスト学習モデルを採用し、パッチレベルとイメージレベルの再構築損失の2種類の学習目標で事前訓練されている。下流タスクの大規模な転送実験は、私たちのMimCo事前トレーニングフレームワークの優れたパフォーマンスを示しています。 ViT-Sを例として、トレーニング済みのMoCov3-ViT-Sを教師モデルとして使用する場合、MimCoはImagenet-1Kで82.53%のトップ1の微調整を実現するために、100エポックの事前トレーニングしか必要としない。

関連論文リスト

Understanding the Transfer Limits of Vision Foundation Models [38.99867932557529]
ファンデーションモデルは大規模な事前学習を利用して広範な知識を捉え、幅広い言語タスクにおける一般化を実証する。この制限は、事前学習目標と下流の視覚・画像タスクの要求とのミスマッチから生じると仮定する。一般的な視覚パターンの回復やグローバルな意味構造などのタスクに対する、マスク付き画像再構成や対照的な学習形状表現などの事前学習戦略。以上の結果から,事前学習と下流作業の整合性は,最大平均偏差(MMD)などの単純な分散指標によって測定され,微調整前後の同一特徴間の相関が強く,性能改善と相関することが示唆された。
論文参考訳（メタデータ） (2026-01-22T12:07:56Z)
Should VLMs be Pre-trained with Image Data? [54.50406730361859]
画像とテキストデータの混在による事前学習により、モデルが視覚言語タスクでより良いパフォーマンスを発揮できることがわかった。平均6つの多様なタスクにおいて、1Bモデルに対して、事前学習による視覚トークンの80%を導入すると、完全に事前訓練されたモデルに視覚トークンを導入するよりも平均2%改善されることがわかった。
論文参考訳（メタデータ） (2025-03-10T17:58:19Z)
From Prototypes to General Distributions: An Efficient Curriculum for Masked Image Modeling [11.634154932876719]
Masked Image Modelingは視覚表現学習のための強力な自己教師型学習パラダイムとして登場した。本稿では,原典例からデータセットのより複雑なバリエーションまで,学習プロセスの進行を構造化する,プロトタイプ駆動型カリキュラム学習フレームワークを提案する。本研究は, 自己指導型視覚学習において, トレーニング事例の順序を慎重に制御することが重要な役割を担っていることを示唆している。
論文参考訳（メタデータ） (2024-11-16T03:21:06Z)
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。 MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文参考訳（メタデータ） (2024-10-09T17:59:04Z)
Membership Inference Attack Against Masked Image Modeling [29.699606401861818]
Masked Image Modeling (MIM)は、視覚認識のための自己教師付き学習(SSL)の領域で大きな成功を収めた。本研究では、MIMの事前学習データプライバシーを研究することで、異なる角度を採る。 MIMにより事前訓練された画像エンコーダに対する最初のメンバシップ推論攻撃を提案する。
論文参考訳（メタデータ） (2024-08-13T11:34:28Z)
Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文参考訳（メタデータ） (2024-05-06T02:02:57Z)
Morphing Tokens Draw Strong Masked Image Models [28.356863521946607]
Masked Image Modeling (MIM) は、視覚変換器(ViT)の事前訓練のための有望なアプローチとして登場した。動的トークンモルフィング(DTM)は,コンテキストを保存しながら動的にトークンを集約し,コンテキスト化されたターゲットを生成する手法である。 DTMはさまざまなSSLフレームワークと互換性があります。
論文参考訳（メタデータ） (2023-12-30T14:53:09Z)
Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文参考訳（メタデータ） (2023-06-26T17:53:05Z)
Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文参考訳（メタデータ） (2023-04-04T17:59:04Z)
FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。 ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文参考訳（メタデータ） (2022-12-13T14:09:32Z)
Exploring The Role of Mean Teachers in Self-supervised Masked Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。 RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文参考訳（メタデータ） (2022-10-05T08:08:55Z)
Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。 HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文参考訳（メタデータ） (2021-03-23T17:37:51Z)
Self-supervised Pre-training with Hard Examples Improves Visual Representations [110.23337264762512]
自己教師付き事前学習(ssp)は、ランダムな画像変換を用いて視覚表現学習のためのトレーニングデータを生成する。まず,既存のSSPメソッドを擬似ラベル予測学習として統合するモデリングフレームワークを提案する。そこで本研究では,疑似ラベルの予測が難しい学習例をランダムな画像変換で生成するデータ拡張手法を提案する。
論文参考訳（メタデータ） (2020-12-25T02:44:22Z)
ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文参考訳（メタデータ） (2020-01-22T11:35:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。