論文の概要: Exploring Target Representations for Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2209.03917v3
- Date: Sun, 26 Mar 2023 14:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 02:47:05.398426
- Title: Exploring Target Representations for Masked Autoencoders
- Title(参考訳): マスクオートエンコーダのターゲット表現探索
- Authors: Xingbin Liu, Jinghao Zhou, Tao Kong, Xianming Lin, Rongrong Ji
- Abstract要約: 目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
- 参考スコア(独自算出の注目度): 78.57196600585462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked autoencoders have become popular training paradigms for
self-supervised visual representation learning. These models randomly mask a
portion of the input and reconstruct the masked portion according to the target
representations. In this paper, we first show that a careful choice of the
target representation is unnecessary for learning good representations, since
different targets tend to derive similarly behaved models. Driven by this
observation, we propose a multi-stage masked distillation pipeline and use a
randomly initialized model as the teacher, enabling us to effectively train
high-capacity models without any efforts to carefully design target
representations. Interestingly, we further explore using teachers of larger
capacity, obtaining distilled students with remarkable transferring ability. On
different tasks of classification, transfer learning, object detection, and
semantic segmentation, the proposed method to perform masked knowledge
distillation with bootstrapped teachers (dBOT) outperforms previous
self-supervised methods by nontrivial margins. We hope our findings, as well as
the proposed method, could motivate people to rethink the roles of target
representations in pre-training masked autoencoders.The code and pre-trained
models are publicly available at https://github.com/liuxingbin/dbot.
- Abstract(参考訳): マスク付きオートエンコーダは、自己教師型視覚表現学習のトレーニングパラダイムとして人気を博している。
これらのモデルは入力の一部をランダムにマスクし、対象の表現に従ってマスクされた部分を再構築する。
本稿では,対象表現の注意深い選択がよい表現を学習する上で不要であることを示し,異なる対象が同様に振る舞うモデルを導出する傾向にあることを示す。
本研究は,マルチステージマスク蒸留パイプラインを提案し,教師としてランダムに初期化モデルを用いて,ターゲット表現を慎重に設計することなく,高容量モデルを効果的に学習することを可能にする。
興味深いことに,より大容量の教員を活用し,顕著な転校能力を持つ蒸留留学生を得る方法が検討されている。
分類,伝達学習,オブジェクト検出,セマンティックセグメンテーションの異なるタスクにおいて,自己指導型教師(dBOT)によるマスク付き知識蒸留を行う手法は,非自覚的マージンによる従来の自己指導方法よりも優れていた。
提案手法と同様に、私たちの調査結果は、事前トレーニングされたマスク付きオートエンコーダにおけるターゲット表現の役割を再考する動機付けになることを願っています。
関連論文リスト
- Attention-Guided Masked Autoencoders For Learning Image Representations [16.257915216763692]
Masked Autoencoders (MAE) はコンピュータビジョンタスクの教師なし事前訓練のための強力な方法として確立されている。
本稿では,注意誘導損失関数を用いて再建過程を通知する。
評価の結果,事前学習したモデルでは,バニラMAEよりも遅延表現が優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-23T08:11:25Z) - Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection
Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。
本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。
本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文 参考訳(メタデータ) (2023-06-06T14:23:34Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Object-wise Masked Autoencoders for Fast Pre-training [13.757095663704858]
現在のマスク付き画像符号化モデルは、単一のオブジェクト表現ではなく、シーン全体のすべてのオブジェクト間の基盤となる関係を学習することを示す。
興味のある領域マスクを用いて選択的な再構成を行うことで、オブジェクトの表現を学習するための非オブジェクトパッチをドロップする、新しいオブジェクト選択と分割戦略を導入する。
4つの一般的なデータセットの実験は、競争性能を達成しつつ計算コストを72%削減する上で、我々のモデルの有効性を実証している。
論文 参考訳(メタデータ) (2022-05-28T05:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。