論文の概要: Disjoint Masking with Joint Distillation for Efficient Masked Image
Modeling
- arxiv url: http://arxiv.org/abs/2301.00230v1
- Date: Sat, 31 Dec 2022 15:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:12:29.374130
- Title: Disjoint Masking with Joint Distillation for Efficient Masked Image
Modeling
- Title(参考訳): 効率的なマスキング画像モデリングのためのジョイント蒸留による非接合マスキング
- Authors: Xin Ma, Chang Liu, Chunyu Xie, Long Ye, Yafeng Deng, Xiangyang Ji
- Abstract要約: Masked Image Modeling (MIM) は自己教師型学習 (SSL) に大きく貢献している。
DMJD(Disjoint Masking with Joint Distillation)と呼ばれる,概念的にシンプルだが学習効率のよいMIMトレーニングスキームを導入する。
- 参考スコア(独自算出の注目度): 36.231030262831005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked image modeling (MIM) has shown great promise for self-supervised
learning (SSL) yet been criticized for learning inefficiency. We believe the
insufficient utilization of training signals should be responsible. To
alleviate this issue, we introduce a conceptually simple yet learning-efficient
MIM training scheme, termed Disjoint Masking with Joint Distillation (DMJD).
For disjoint masking (DM), we sequentially sample multiple masked views per
image in a mini-batch with the disjoint regulation to raise the usage of tokens
for reconstruction in each image while keeping the masking rate of each view.
For joint distillation (JD), we adopt a dual branch architecture to
respectively predict invisible (masked) and visible (unmasked) tokens with
superior learning targets. Rooting in orthogonal perspectives for training
efficiency improvement, DM and JD cooperatively accelerate the training
convergence yet not sacrificing the model generalization ability. Concretely,
DM can train ViT with half of the effective training epochs (3.7 times less
time-consuming) to report competitive performance. With JD, our DMJD clearly
improves the linear probing classification accuracy over ConvMAE by 5.8%. On
fine-grained downstream tasks like semantic segmentation, object detection,
etc., our DMJD also presents superior generalization compared with
state-of-the-art SSL methods. The code and model will be made public at
https://github.com/mx-mark/DMJD.
- Abstract(参考訳): マスク付き画像モデリング(MIM)は、自己教師付き学習(SSL)に大きな可能性を示しているが、非効率な学習では批判されている。
我々は、訓練信号の不十分な利用が責任であると信じている。
この問題を軽減するため,DMJD(Disjoint Masking with Joint Distillation)と呼ばれる,概念的にシンプルだが学習効率のよいMIMトレーニングスキームを導入する。
分割マスキング(DM)では,各画像のマスキング率を維持しつつ,各画像の復元にトークンの使用率を高めるために,ミニバッチで複数のマスキングビューを順次サンプリングする。
共同蒸留(JD)では,両枝構造を用いて,より優れた学習目標を持つ可視(マスケ)トークンと可視(マスケ)トークンをそれぞれ予測する。
トレーニング効率向上のための直交的視点の根源として,dmとjdは協調的にトレーニング収束を加速するが,モデルの一般化能力は犠牲にしない。
具体的には、DMはViTを効果的なトレーニングエポックの半分(3.7倍の時間)で訓練し、競争性能を報告できる。
JDでは, DMJDはConvMAEの線形探索分類精度を5.8%向上させる。
セマンティックセグメンテーションやオブジェクト検出といった細粒度の下流タスクでは、最先端のSSLメソッドと比較して、DMJDは優れた一般化を提供する。
コードとモデルはhttps://github.com/mx-mark/DMJD.comで公開される。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Morphing Tokens Draw Strong Masked Image Models [28.356863521946607]
Masked Image Modeling (MIM) はビジョントランスフォーマー(ViT)のトレーニングに有望なアプローチとして登場した。
本稿では,動的トークンを動的に集約し,コンテキスト化された目標を出力する動的トーケンモーフィング(DTM)という,新たな自己超越信号を導入する。
DTMはさまざまなSSLフレームワークと互換性があり、DTMを採用することで改善されたMIM結果を示します。
論文 参考訳(メタデータ) (2023-12-30T14:53:09Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Mixed Autoencoder for Self-supervised Visual Representation Learning [95.98114940999653]
Masked Autoencoder (MAE) は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
本稿では,MAEのミキシング強化について検討する。
論文 参考訳(メタデータ) (2023-03-30T05:19:43Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - MimCo: Masked Image Modeling Pre-training with Contrastive Teacher [14.413674270588023]
Masked Image Modeling (MIM) は自己教師型学習 (SSL) において多くの注目を集めている。
可視化は、学習された表現は、特に対照的な学習事前学習に基づく表現に比べて分離しにくいことを示している。
そこで本研究では,MIMと2段階事前学習によるコントラスト学習を組み合わせた,新しい,フレキシブルな事前学習フレームワークMimCoを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:59:05Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。