論文の概要: Designing BERT for Convolutional Networks: Sparse and Hierarchical
Masked Modeling
- arxiv url: http://arxiv.org/abs/2301.03580v1
- Date: Mon, 9 Jan 2023 18:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 15:28:21.279454
- Title: Designing BERT for Convolutional Networks: Sparse and Hierarchical
Masked Modeling
- Title(参考訳): 畳み込みネットワークのためのBERTの設計:スパースと階層型マスケッドモデリング
- Authors: Keyu Tian, Yi Jiang, Qishuai Diao, Chen Lin, Liwei Wang, Zehuan Yuan
- Abstract要約: BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する。
我々は、3次元点雲のスパースボクセルとして非マス化画素を扱い、スパース畳み込みを用いてエンコードする。
これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
- 参考スコア(独自算出の注目度): 23.164631160130092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We identify and overcome two key obstacles in extending the success of
BERT-style pre-training, or the masked image modeling, to convolutional
networks (convnets): (i) convolution operation cannot handle irregular,
random-masked input images; (ii) the single-scale nature of BERT pre-training
is inconsistent with convnet's hierarchical structure. For (i), we treat
unmasked pixels as sparse voxels of 3D point clouds and use sparse convolution
to encode. This is the first use of sparse convolution for 2D masked modeling.
For (ii), we develop a hierarchical decoder to reconstruct images from
multi-scale encoded features. Our method called Sparse masKed modeling (SparK)
is general: it can be used directly on any convolutional model without backbone
modifications. We validate it on both classical (ResNet) and modern (ConvNeXt)
models: on three downstream tasks, it surpasses both state-of-the-art
contrastive learning and transformer-based masked modeling by similarly large
margins (around +1.0%). Improvements on object detection and instance
segmentation are more substantial (up to +3.5%), verifying the strong
transferability of features learned. We also find its favorable scaling
behavior by observing more gains on larger models. All this evidence reveals a
promising future of generative pre-training on convnets. Codes and models are
released at https://github.com/keyu-tian/SparK.
- Abstract(参考訳): BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する上での2つの重要な障害を特定し克服する。
(i)畳み込み操作は、不規則で無作為な入力画像を処理できない。
(ii) bertプリトレーニングの単スケール性は、convnetの階層構造と矛盾する。
のために
i) 未知の画素を3次元点雲のスパースボクセルとして扱い, スパース畳み込みを用いてエンコードする。
これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
のために
(II) 階層型デコーダを開発し, マルチスケール特徴量から画像を再構成する。
Sparse masKed Modeling (SparK) と呼ばれる手法は一般的に、バックボーンの修正なしに任意の畳み込みモデル上で直接使用できる。
古典的(ResNet)モデルと現代的(ConvNeXt)モデルの両方で検証する:3つの下流タスクでは、最先端のコントラスト学習とトランスフォーマーベースのマスクモデリングを、同様に大きなマージン(約+1.0%)で上回る。
オブジェクト検出とインスタンスセグメンテーションの改善(+3.5%まで)により、学習した機能の強い転送可能性を検証する。
また、より大きなモデルでより多くの利得を観察することで、その好ましいスケーリング行動を見つけます。
これらすべての証拠は、convnetsにおける生成前訓練の有望な未来を明らかにする。
コードとモデルはhttps://github.com/keyu-tian/sparkでリリースされている。
関連論文リスト
- HySparK: Hybrid Sparse Masking for Large Scale Medical Image Pre-Training [21.444098313697044]
本稿では,マスク画像モデリングに基づく生成前トレーニング戦略を提案し,医療画像の大規模事前トレーニングに応用する。
我々は,高密度なマルチスケール特徴再構成を実現するために,スキップ接続を備えた単純な階層型デコーダを用いる。
論文 参考訳(メタデータ) (2024-08-11T16:31:39Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。