Fugu-MT 論文翻訳(概要): Improve Supervised Representation Learning with Masked Image Modeling

論文の概要: Improve Supervised Representation Learning with Masked Image Modeling

arxiv url: http://arxiv.org/abs/2312.00950v1
Date: Fri, 1 Dec 2023 22:03:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 20:04:53.677473
Title: Improve Supervised Representation Learning with Masked Image Modeling
Title（参考訳）: マスク画像モデリングによる教師あり表現学習の改善
Authors: Kaifeng Chen, Daniel Salz, Huiwen Chang, Kihyuk Sohn, Dilip Krishnan, Mojtaba Seyedhosseini
Abstract要約: マスク付き画像モデリングを既存の教師付きトレーニングパラダイムに簡単に統合できる,シンプルで効果的なセットアップを提案する。アーキテクチャの変更は最小限であり、この設定が学習した表現の質を向上させることができるという仮定のオーバーヘッドはない。
参考スコア（独自算出の注目度）: 30.30649867772395
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training visual embeddings with labeled data supervision has been the de facto setup for representation learning in computer vision. Inspired by recent success of adopting masked image modeling (MIM) in self-supervised representation learning, we propose a simple yet effective setup that can easily integrate MIM into existing supervised training paradigms. In our design, in addition to the original classification task applied to a vision transformer image encoder, we add a shallow transformer-based decoder on top of the encoder and introduce an MIM task which tries to reconstruct image tokens based on masked image inputs. We show with minimal change in architecture and no overhead in inference that this setup is able to improve the quality of the learned representations for downstream tasks such as classification, image retrieval, and semantic segmentation. We conduct a comprehensive study and evaluation of our setup on public benchmarks. On ImageNet-1k, our ViT-B/14 model achieves 81.72% validation accuracy, 2.01% higher than the baseline model. On K-Nearest-Neighbor image retrieval evaluation with ImageNet-1k, the same model outperforms the baseline by 1.32%. We also show that this setup can be easily scaled to larger models and datasets. Code and checkpoints will be released.
Abstract（参考訳）: ラベル付きデータ監視による視覚埋め込みのトレーニングは、コンピュータビジョンにおける表現学習の事実上のセットアップである。自己教師付き表現学習におけるマスク付き画像モデリング(MIM)の最近の成功に触発されて,MIMを既存の教師付き訓練パラダイムに容易に統合可能な,シンプルかつ効果的な設定を提案する。本設計では、視覚変換器の画像エンコーダに適用される元の分類タスクに加えて、エンコーダの上に浅いトランスフォーマーベースのデコーダを追加し、マスク画像入力に基づいて画像トークンを再構成しようとするMIMタスクを導入する。アーキテクチャの変更を最小限に抑え、この設定が分類、画像検索、セマンティックセグメンテーションといった下流タスクの学習表現の品質を向上させることができるという推論のオーバーヘッドを伴わないことを示す。我々は、公開ベンチマークで設定の総合的な研究と評価を行う。 ImageNet-1kでは、VT-B/14モデルが81.72%の検証精度を実現し、ベースラインモデルよりも2.01%高い。 ImageNet-1kによるK-Nearest-Neighbor画像検索評価では、同じモデルがベースラインを1.32%上回る。また、このセットアップをより大きなモデルやデータセットに簡単に拡張できることも示しています。コードとチェックポイントがリリースされます。

関連論文リスト

Evolved Hierarchical Masking for Self-Supervised Learning [49.77271430882176]
既存のマスケ画像モデリング手法では、固定マスクパターンを適用して自己指導型トレーニングを指導する。本稿では,自己教師型学習における一般的な視覚的手がかりモデリングを追求する階層型マスキング手法を提案する。
論文参考訳（メタデータ） (2025-04-12T09:40:14Z)
Adapting LLaMA Decoder to Vision Transformer [65.47663195233802]
本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。まず、LLaMAのアーキテクチャと整合する標準的なViTを「LLaMAfy」と呼び、自己注意に因果マスクを直接適用することで、注意崩壊の問題が生じる。我々は,訓練開始時の自己注意に因果マスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。
論文参考訳（メタデータ） (2024-04-10T06:30:08Z)
Heuristic Vision Pre-Training with Self-Supervised and Supervised Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文参考訳（メタデータ） (2023-10-11T14:06:04Z)
MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。 MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文参考訳（メタデータ） (2023-04-06T04:39:21Z)
MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。 ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文参考訳（メタデータ） (2022-11-16T18:59:02Z)
A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文参考訳（メタデータ） (2022-10-19T14:59:18Z)
Denoising Masked AutoEncoders are Certifiable Robust Vision Learners [37.04863068273281]
DMAE(Denoising Masked AutoEncoders)と呼ばれる自己教師型手法を提案する。 DMAEは各ピクセル値にガウスノイズを加え、複数のパッチをランダムにマスキングすることで、各イメージを劣化させる。その後、Transformerベースのエンコーダデコーダモデルをトレーニングして、オリジナルのイメージを破損したイメージから再構築する。
論文参考訳（メタデータ） (2022-10-10T12:37:59Z)
BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文参考訳（メタデータ） (2022-08-12T16:48:10Z)
Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。 MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文参考訳（メタデータ） (2022-06-07T02:03:06Z)
Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。 CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文参考訳（メタデータ） (2022-02-07T17:59:04Z)
Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文参考訳（メタデータ） (2021-11-11T18:46:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。