論文の概要: Semi-Supervised Masked Autoencoders: Unlocking Vision Transformer Potential with Limited Data
- arxiv url: http://arxiv.org/abs/2601.20072v1
- Date: Tue, 27 Jan 2026 21:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.67024
- Title: Semi-Supervised Masked Autoencoders: Unlocking Vision Transformer Potential with Limited Data
- Title(参考訳): 半スーパービジョンマスケオートエンコーダ:限られたデータを用いたアンロック型ビジョントランス
- Authors: Atik Faysal, Mohammad Rostami, Reihaneh Gh. Roshan, Nikhil Muralidhar, Huaxia Wang,
- Abstract要約: 本研究では,未ラベルとラベル付きの両方のサンプルを用いて,マスク付き画像再構成と分類を共同で最適化するフレームワークを提案する。
SSMAEは、モデルが信頼性の高い高信頼の予測を達成した後のみ擬似ラベルを活性化するバリデーション駆動のゲーティング機構を導入する。
この結果から,擬似ラベルの導入は,データ効率のよいトランスフォーマートレーニングにおいて,その生成方法と同じくらい重要であることが示された。
- 参考スコア(独自算出の注目度): 13.807896870065706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the challenge of training Vision Transformers (ViTs) when labeled data is scarce but unlabeled data is abundant. We propose Semi-Supervised Masked Autoencoder (SSMAE), a framework that jointly optimizes masked image reconstruction and classification using both unlabeled and labeled samples with dynamically selected pseudo-labels. SSMAE introduces a validation-driven gating mechanism that activates pseudo-labeling only after the model achieves reliable, high-confidence predictions that are consistent across both weakly and strongly augmented views of the same image, reducing confirmation bias. On CIFAR-10 and CIFAR-100, SSMAE consistently outperforms supervised ViT and fine-tuned MAE, with the largest gains in low-label regimes (+9.24% over ViT on CIFAR-10 with 10% labels). Our results demonstrate that when pseudo-labels are introduced is as important as how they are generated for data-efficient transformer training. Codes are available at https://github.com/atik666/ssmae.
- Abstract(参考訳): ラベル付きデータが少ないがラベルなしデータが豊富である場合、視覚変換器(ViT)を訓練する際の課題に対処する。
マスク付き画像再構成と分類を,動的に選択された擬似ラベルを用いたラベル付きサンプルとラベル付きサンプルの両方を用いて共同で最適化するフレームワークであるSemi-Supervised Masked Autoencoder (SSMAE)を提案する。
SSMAEは、モデルが信頼性の高い高信頼の予測を達成した後のみ擬似ラベルを活性化する検証駆動型ゲーティング機構を導入し、同一画像の弱みと強みの両方で一致し、確認バイアスを低減する。
CIFAR-10 と CIFAR-100 では、SSMAE は監督された ViT と微調整された MAE を一貫して上回り、低ラベルの政権では最大の利益を上げている(CIFAR-10 では 10% のラベルで ViT を+9.24% 上回る)。
この結果から,擬似ラベルの導入は,データ効率のよいトランスフォーマートレーニングにおいて,その生成方法と同じくらい重要であることが示された。
コードはhttps://github.com/atik666/ssmae.comで入手できる。
関連論文リスト
- MarginMatch: Improving Semi-Supervised Learning with Pseudo-Margins [73.17295479535161]
MarginMatchは、一貫性の正規化と擬似ラベルを組み合わせた新しいSSLアプローチである。
トレーニングが進むにつれて、擬似ラベル付きモデル上でのモデルの振る舞いを分析し、低品質な予測が隠蔽されることを確かめる。
CIFAR-100では,クラス毎に25ラベル,STL-10では3.78%,クラス毎に4ラベルで3.25%の誤差率向上を実現した。
論文 参考訳(メタデータ) (2023-08-17T15:19:04Z) - What Are Effective Labels for Augmented Data? Improving Calibration and
Robustness with AutoLabel [25.90876543174631]
歪んだデータに対する1ホットラベルの再使用は、ノイズの追加や精度の劣化、校正のリスクを負う可能性がある。
そこで本研究では,ラベルの信頼度を自動的に学習する汎用手法であるAutoLabelを提案する。
私たちはAutoLabelを、最先端のRandAug、AugMix、敵のトレーニングという3つの異なるデータ拡張テクニックに適用することに成功しました。
論文 参考訳(メタデータ) (2023-02-22T07:44:17Z) - Semi-MAE: Masked Autoencoders for Semi-supervised Vision Transformers [5.29690621203603]
Semi-MAEは、ビジュアル表現学習を支援するための並列MAEブランチで構成される、純粋なViTベースのSSLフレームワークである。
Semi-MAE は ImageNet の75.9% のトップ-1 の精度を10% のラベルで達成し、半教師付き画像分類における最先端技術を上回っている。
論文 参考訳(メタデータ) (2023-01-04T03:59:17Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - ConvMAE: Masked Convolution Meets Masked Autoencoders [65.15953258300958]
機能事前トレーニングとマルチスケールハイブリッド畳み込み変換アーキテクチャのためのマスク付き自動エンコーディングは、ViTの可能性をさらに解き放つことができる。
我々のConvMAEフレームワークは、マスクの自動符号化方式により、マルチスケールのハイブリッド畳み込み変換器がより識別的な表現を学習できることを実証している。
事前訓練したConvMAEモデルに基づいて、ConvMAE-Baseは画像Net-1Kの微調整精度をMAE-Baseと比較して1.4%改善する。
論文 参考訳(メタデータ) (2022-05-08T15:12:19Z) - CLS: Cross Labeling Supervision for Semi-Supervised Learning [9.929229055862491]
Cross Labeling Supervision (CLS) は、典型的な擬似ラベル処理を一般化するフレームワークである。
CLSは擬似ラベルと相補ラベルの両方を作成でき、正と負の両方の学習をサポートする。
論文 参考訳(メタデータ) (2022-02-17T08:09:40Z) - Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition [98.25592165484737]
CMPL(Cross-Model Pseudo-Labeling)と呼ばれる,より効果的な擬似ラベル方式を提案する。
CMPLは、それぞれRGBモダリティとラベル付きデータのみを使用して、Kinetics-400とUCF-101のTop-1の精度を17.6%と25.1%で達成している。
論文 参考訳(メタデータ) (2021-12-17T18:59:41Z) - Improving Auto-Encoders' self-supervised image classification using
pseudo-labelling via data augmentation and the perceptual loss [0.9558392439655015]
擬似ラベルのない画像に新しい手法を導入し、オートエンコーダを訓練して自己教師付きで分類する。
提案手法は,まずランダムにサンプル化したデータ拡張変換をトレーニング画像に適用する。
オートエンコーダを用いて、拡張画像の各セットとその対応する擬似ラベル間のマッピングを学習する。
論文 参考訳(メタデータ) (2020-12-06T17:03:34Z) - General Multi-label Image Classification with Transformers [30.58248625606648]
視覚的特徴やラベル間の複雑な依存関係を利用するための分類変換器(C-Tran)を提案する。
本手法の重要な要素は,3次符号化方式を用いてラベルの状態を表すラベルマスク訓練目標である。
我々のモデルは、COCOやVisual Genomeのような挑戦的なデータセットに対する最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-11-27T23:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。