論文の概要: Designing BERT for Convolutional Networks: Sparse and Hierarchical
Masked Modeling
- arxiv url: http://arxiv.org/abs/2301.03580v1
- Date: Mon, 9 Jan 2023 18:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 15:28:21.279454
- Title: Designing BERT for Convolutional Networks: Sparse and Hierarchical
Masked Modeling
- Title(参考訳): 畳み込みネットワークのためのBERTの設計:スパースと階層型マスケッドモデリング
- Authors: Keyu Tian, Yi Jiang, Qishuai Diao, Chen Lin, Liwei Wang, Zehuan Yuan
- Abstract要約: BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する。
我々は、3次元点雲のスパースボクセルとして非マス化画素を扱い、スパース畳み込みを用いてエンコードする。
これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
- 参考スコア(独自算出の注目度): 23.164631160130092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We identify and overcome two key obstacles in extending the success of
BERT-style pre-training, or the masked image modeling, to convolutional
networks (convnets): (i) convolution operation cannot handle irregular,
random-masked input images; (ii) the single-scale nature of BERT pre-training
is inconsistent with convnet's hierarchical structure. For (i), we treat
unmasked pixels as sparse voxels of 3D point clouds and use sparse convolution
to encode. This is the first use of sparse convolution for 2D masked modeling.
For (ii), we develop a hierarchical decoder to reconstruct images from
multi-scale encoded features. Our method called Sparse masKed modeling (SparK)
is general: it can be used directly on any convolutional model without backbone
modifications. We validate it on both classical (ResNet) and modern (ConvNeXt)
models: on three downstream tasks, it surpasses both state-of-the-art
contrastive learning and transformer-based masked modeling by similarly large
margins (around +1.0%). Improvements on object detection and instance
segmentation are more substantial (up to +3.5%), verifying the strong
transferability of features learned. We also find its favorable scaling
behavior by observing more gains on larger models. All this evidence reveals a
promising future of generative pre-training on convnets. Codes and models are
released at https://github.com/keyu-tian/SparK.
- Abstract(参考訳): BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する上での2つの重要な障害を特定し克服する。
(i)畳み込み操作は、不規則で無作為な入力画像を処理できない。
(ii) bertプリトレーニングの単スケール性は、convnetの階層構造と矛盾する。
のために
i) 未知の画素を3次元点雲のスパースボクセルとして扱い, スパース畳み込みを用いてエンコードする。
これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
のために
(II) 階層型デコーダを開発し, マルチスケール特徴量から画像を再構成する。
Sparse masKed Modeling (SparK) と呼ばれる手法は一般的に、バックボーンの修正なしに任意の畳み込みモデル上で直接使用できる。
古典的(ResNet)モデルと現代的(ConvNeXt)モデルの両方で検証する:3つの下流タスクでは、最先端のコントラスト学習とトランスフォーマーベースのマスクモデリングを、同様に大きなマージン(約+1.0%)で上回る。
オブジェクト検出とインスタンスセグメンテーションの改善(+3.5%まで)により、学習した機能の強い転送可能性を検証する。
また、より大きなモデルでより多くの利得を観察することで、その好ましいスケーリング行動を見つけます。
これらすべての証拠は、convnetsにおける生成前訓練の有望な未来を明らかにする。
コードとモデルはhttps://github.com/keyu-tian/sparkでリリースされている。
関連論文リスト
- Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Bayesian Image Reconstruction using Deep Generative Models [7.012708932320081]
本研究では,最先端(sota)生成モデルを用いて強力な画像先行モデルを構築する。
BRGM (Bayesian Reconstruction through Generative Models) と呼ばれる本手法では,1つの事前学習されたジェネレータモデルを用いて,異なる画像復元タスクを解く。
論文 参考訳(メタデータ) (2020-12-08T17:11:26Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。