論文の概要: MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained
Representations
- arxiv url: http://arxiv.org/abs/2402.10093v1
- Date: Thu, 15 Feb 2024 16:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 14:47:44.762692
- Title: MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained
Representations
- Title(参考訳): MIM-Refiner: 中間的事前学習表現からのコントラスト学習
- Authors: Benedikt Alkin and Lukas Miklautz and Sepp Hochreiter and Johannes
Brandstetter
- Abstract要約: MIM-Refinerは、事前訓練されたMIMモデルの対照的な学習促進である。
我々はMIMモデルの特徴を、サブパーから最先端のオフ・ザ・シェルフ機能まで洗練する。
ImageNet-1Kの1ショット分類では、MIM-Refinerは64.2%の新しい最先端を設定しており、2000倍以上のデータでトレーニングされたより大きなモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 18.11603998507362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MIM (Masked Image Modeling)-Refiner, a contrastive learning
boost for pre-trained MIM models. The motivation behind MIM-Refiner is rooted
in the insight that optimal representations within MIM models generally reside
in intermediate layers. Accordingly, MIM-Refiner leverages multiple contrastive
heads that are connected to diverse intermediate layers. In each head, a
modified nearest neighbor objective helps to construct respective semantic
clusters.
The refinement process is short but effective. Within a few epochs, we refine
the features of MIM models from subpar to state-of-the-art, off-the-shelf
features. Refining a ViT-H, pre-trained with data2vec 2.0 on ImageNet-1K,
achieves new state-of-the-art results in linear probing (84.7%) and low-shot
classification among models that are pre-trained on ImageNet-1K. In ImageNet-1K
1-shot classification, MIM-Refiner sets a new state-of-the-art of 64.2%,
outperforming larger models that were trained on up to 2000x more data such as
DINOv2-g, OpenCLIP-G and MAWS-6.5B. Project page:
https://ml-jku.github.io/MIM-Refiner
- Abstract(参考訳): 事前学習されたMIMモデルに対する対照的な学習促進であるMIM-Refinerを導入する。
MIM-Refinerの背景にある動機は、MIMモデル内の最適な表現が一般的に中間層に存在するという洞察に根ざしている。
そのため、MIM-Refinerは様々な中間層に接続された複数のコントラストヘッドを利用する。
各ヘッドでは、修正された直近の目的が、各セマンティクスクラスタを構築するのに役立ちます。
精錬プロセスは短いが効果的である。
数世紀以内に、MIMモデルの機能をサブパーから最先端のオフザシェルフ機能まで洗練します。
ImageNet-1KでData2vec 2.0で事前トレーニングされたViT-Hは、リニアプローブ(84.7%)と、ImageNet-1Kで事前トレーニングされたモデル間のローショット分類において、新しい最先端の結果を達成する。
ImageNet-1Kの1ショット分類では、MIM-Refinerは64.2%の新しい最先端のモデルを設定し、DINOv2-g、OpenCLIP-G、MAWS-6.5Bなどの2000倍以上のデータでトレーニングされたより大きなモデルより優れている。
プロジェクトページ: https://ml-jku.github.io/mim-refiner
関連論文リスト
- RevColV2: Exploring Disentangled Representations in Masked Image
Modeling [12.876864261893909]
Masked Image Modeling (MIM) は、視覚基礎モデルのトレーニング前セットアップとして広く使われており、有望なパフォーマンスを実現している。
既存のMIMメソッドは、ダウンストリームアプリケーション中にデコーダネットワークを破棄し、事前トレーニングと微調整の間に一貫性のない表現をもたらす。
本稿では,事前学習と微調整の両方において,オートエンコーダアーキテクチャ全体を維持することで,この問題に対処する新しいアーキテクチャRevColV2を提案する。
論文 参考訳(メタデータ) (2023-09-02T18:41:27Z) - Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。
提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-08-01T03:44:56Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders [17.564722905991776]
我々は、深い特徴を持つマスク画像モデリング(MIM)のためのイメージ・トゥ・ベクター(Img2Vec)のパイプラインを提示する。
Img2Vecは、MIM学習を深く特徴付けるのに適した、シンプルで効果的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-25T03:01:37Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。
既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文 参考訳(メタデータ) (2023-03-09T13:42:04Z) - TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models [31.16595289223858]
マスク付き画像モデリング(MIM)は、事前学習大型視覚変換器(ViT)に強く貢献する
しかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。
我々は,MIMをベースとした大規模プレトレーニングモデルの成功を,より小さなモデルに伝達する蒸留技術について検討する。
論文 参考訳(メタデータ) (2023-01-03T18:59:54Z) - CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文 参考訳(メタデータ) (2022-11-17T18:58:33Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Revealing the Dark Secrets of Masked Image Modeling [25.221516344869805]
事前学習としてのマスク付き画像モデリング(MIM)は、多くの視線下流タスクに有効であることが示されているが、どのように、どこでMIMが機能するのかは定かではない。
本稿では,MIMと長大な教師付き事前学習モデルを比較し,可視化と実験を行った。
MIMは、トレーニングされたモデルのすべての層に局所性誘導バイアスをもたらすが、教師付きモデルは、より低い層に局所的に集中する傾向にある。
論文 参考訳(メタデータ) (2022-05-26T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。