論文の概要: Masked Modeling Duo: Learning Representations by Encouraging Both
Networks to Model the Input
- arxiv url: http://arxiv.org/abs/2210.14648v1
- Date: Wed, 26 Oct 2022 11:49:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:55:00.836764
- Title: Masked Modeling Duo: Learning Representations by Encouraging Both
Networks to Model the Input
- Title(参考訳): masked modeling duo: 両方のネットワークに入力をモデル化させる学習表現
- Authors: Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, and
Kunio Kashino
- Abstract要約: Masked Modeling Duo (M2D)は、マスクされたパッチのみを使用してトレーニング信号を取得しながら、直接表現を学習する。
オンラインネットワークは可視パッチをエンコードし、マスクされたパッチ表現を予測し、ターゲットネットワークであるモーメントエンコーダはマスクされたパッチをエンコードする。
我々は,UrbanSound8K,VoxCeleb1,AudioSet20K,GTZAN,SpeechCommandsV2といったタスクに対して,最先端のパフォーマンスを新たに設定した。
- 参考スコア(独自算出の注目度): 34.50740425352903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Autoencoders is a simple yet powerful self-supervised learning method.
However, it learns representations indirectly by reconstructing masked input
patches. Several methods learn representations directly by predicting
representations of masked patches; however, we think using all patches to
encode training signal representations is suboptimal. We propose a new method,
Masked Modeling Duo (M2D), that learns representations directly while obtaining
training signals using only masked patches. In the M2D, the online network
encodes visible patches and predicts masked patch representations, and the
target network, a momentum encoder, encodes masked patches. To better predict
target representations, the online network should model the input well, while
the target network should also model it well to agree with online predictions.
Then the learned representations should better model the input. We validated
the M2D by learning general-purpose audio representations, and M2D set new
state-of-the-art performance on tasks such as UrbanSound8K, VoxCeleb1,
AudioSet20K, GTZAN, and SpeechCommandsV2.
- Abstract(参考訳): masked autoencodersは単純で強力な自己教師付き学習方法である。
しかし、マスクされた入力パッチを再構築することで間接的に表現を学習する。
いくつかの方法はマスクされたパッチの表現を予測して表現を直接学習するが、トレーニング信号の表現をエンコードする全てのパッチは最適ではないと考える。
マスク付きパッチのみを用いてトレーニング信号を取得しながら直接表現を学習するMasked Modeling Duo (M2D)を提案する。
m2dでは、オンラインネットワークが可視パッチをエンコードし、マスクパッチ表現を予測し、モメンタエンコーダであるターゲットネットワークがマスクパッチをエンコードする。
ターゲット表現の予測をより良くするために、オンラインネットワークは入力をうまくモデル化し、ターゲットネットワークはオンライン予測と一致するように適切にモデル化するべきである。
そして、学習した表現は入力をモデル化する方がよい。
汎用音声表現を学習することでm2dを検証し,urbansound8k,voxceleb1,audioset20k,gtzan, speechcommandsv2などのタスクで新たな最先端性能を設定した。
関連論文リスト
- Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - Context Autoencoder for Self-Supervised Representation Learning [64.63908944426224]
符号化された表現空間で予測を行うことにより、符号化器を事前訓練する。
ネットワークはエンコーダ/レグレッサ/デコーダアーキテクチャである。
下流タスクにおける転送性能の向上によるCAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-02-07T09:33:45Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。