Fugu-MT 論文翻訳(概要): MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations

論文の概要: MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations

arxiv url: http://arxiv.org/abs/2402.10093v1
Date: Thu, 15 Feb 2024 16:46:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 14:47:44.762692
Title: MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations
Title（参考訳）: MIM-Refiner: 中間的事前学習表現からのコントラスト学習
Authors: Benedikt Alkin and Lukas Miklautz and Sepp Hochreiter and Johannes Brandstetter
Abstract要約: MIM-Refinerは、事前訓練されたMIMモデルの対照的な学習促進である。我々はMIMモデルの特徴を、サブパーから最先端のオフ・ザ・シェルフ機能まで洗練する。 ImageNet-1Kの1ショット分類では、MIM-Refinerは64.2%の新しい最先端を設定しており、2000倍以上のデータでトレーニングされたより大きなモデルよりも優れていた。
参考スコア（独自算出の注目度）: 18.11603998507362
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce MIM (Masked Image Modeling)-Refiner, a contrastive learning boost for pre-trained MIM models. The motivation behind MIM-Refiner is rooted in the insight that optimal representations within MIM models generally reside in intermediate layers. Accordingly, MIM-Refiner leverages multiple contrastive heads that are connected to diverse intermediate layers. In each head, a modified nearest neighbor objective helps to construct respective semantic clusters. The refinement process is short but effective. Within a few epochs, we refine the features of MIM models from subpar to state-of-the-art, off-the-shelf features. Refining a ViT-H, pre-trained with data2vec 2.0 on ImageNet-1K, achieves new state-of-the-art results in linear probing (84.7%) and low-shot classification among models that are pre-trained on ImageNet-1K. In ImageNet-1K 1-shot classification, MIM-Refiner sets a new state-of-the-art of 64.2%, outperforming larger models that were trained on up to 2000x more data such as DINOv2-g, OpenCLIP-G and MAWS-6.5B. Project page: https://ml-jku.github.io/MIM-Refiner
Abstract（参考訳）: 事前学習されたMIMモデルに対する対照的な学習促進であるMIM-Refinerを導入する。 MIM-Refinerの背景にある動機は、MIMモデル内の最適な表現が一般的に中間層に存在するという洞察に根ざしている。そのため、MIM-Refinerは様々な中間層に接続された複数のコントラストヘッドを利用する。各ヘッドでは、修正された直近の目的が、各セマンティクスクラスタを構築するのに役立ちます。精錬プロセスは短いが効果的である。数世紀以内に、MIMモデルの機能をサブパーから最先端のオフザシェルフ機能まで洗練します。 ImageNet-1KでData2vec 2.0で事前トレーニングされたViT-Hは、リニアプローブ(84.7%)と、ImageNet-1Kで事前トレーニングされたモデル間のローショット分類において、新しい最先端の結果を達成する。 ImageNet-1Kの1ショット分類では、MIM-Refinerは64.2%の新しい最先端のモデルを設定し、DINOv2-g、OpenCLIP-G、MAWS-6.5Bなどの2000倍以上のデータでトレーニングされたより大きなモデルより優れている。プロジェクトページ: https://ml-jku.github.io/mim-refiner

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Cluster and Predict Latent Patches for Improved Masked Image Modeling [25.616762947410045]
我々は,潜在クラスタリングの予測に依存する新しい純粋なMIMフレームワークであるCAPIを紹介する。このアプローチでは,トレーニングに安定なクラスタリングベースの損失を活用し,有望なスケーリング特性を示す。我々のVT-LバックボーンであるCAPIは、ImageNetで83.8%、ADE20Kで32.1%のmIoUを単純な線形プローブで達成している。
論文参考訳（メタデータ） (2025-02-12T20:17:10Z)
Precision matters: Precision-aware ensemble for weakly supervised semantic segmentation [14.931551206723041]
Weakly Supervised Semantic (WSSS) は、画像レベルのラベルなどの弱い監督を、セグメンテーションモデルをトレーニングするために採用している。我々はWSSSに適した高度なアンサンブルアプローチであるORANDNetを提案する。
論文参考訳（メタデータ） (2024-06-28T03:58:02Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。 SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文参考訳（メタデータ） (2024-03-20T09:17:22Z)
Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文参考訳（メタデータ） (2023-08-01T03:44:56Z)
FreMIM: Fourier Transform Meets Masked Image Modeling for Medical Image Segmentation [37.465246717967595]
本稿では,医療画像のセグメンテーション作業の効率化を目的として,FreMIMというMIMベースの新しいフレームワークを提案する。 FreMIMは一貫してモデルパフォーマンスに大幅な改善をもたらす可能性がある。
論文参考訳（メタデータ） (2023-04-21T10:23:34Z)
Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文参考訳（メタデータ） (2023-03-09T13:42:04Z)
TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models [31.16595289223858]
マスク付き画像モデリング(MIM)は、事前学習大型視覚変換器(ViT)に強く貢献するしかし、現実世界のアプリケーションにとって重要な小さなモデルは、この事前学習アプローチの恩恵を受けることはできない。我々は,MIMをベースとした大規模プレトレーニングモデルの成功を,より小さなモデルに伝達する蒸留技術について検討する。
論文参考訳（メタデータ） (2023-01-03T18:59:54Z)
CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。 CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文参考訳（メタデータ） (2022-11-17T18:58:33Z)
Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。 MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-03-09T17:26:53Z)
IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。 IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文参考訳（メタデータ） (2022-01-26T21:35:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。