Fugu-MT 論文翻訳(概要): Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling

論文の概要: Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling

arxiv url: http://arxiv.org/abs/2301.03580v1
Date: Mon, 9 Jan 2023 18:59:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-10 15:28:21.279454
Title: Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling
Title（参考訳）: 畳み込みネットワークのためのBERTの設計:スパースと階層型マスケッドモデリング
Authors: Keyu Tian, Yi Jiang, Qishuai Diao, Chen Lin, Liwei Wang, Zehuan Yuan
Abstract要約: BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する。我々は、3次元点雲のスパースボクセルとして非マス化画素を扱い、スパース畳み込みを用いてエンコードする。これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
参考スコア（独自算出の注目度）: 23.164631160130092
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We identify and overcome two key obstacles in extending the success of BERT-style pre-training, or the masked image modeling, to convolutional networks (convnets): (i) convolution operation cannot handle irregular, random-masked input images; (ii) the single-scale nature of BERT pre-training is inconsistent with convnet's hierarchical structure. For (i), we treat unmasked pixels as sparse voxels of 3D point clouds and use sparse convolution to encode. This is the first use of sparse convolution for 2D masked modeling. For (ii), we develop a hierarchical decoder to reconstruct images from multi-scale encoded features. Our method called Sparse masKed modeling (SparK) is general: it can be used directly on any convolutional model without backbone modifications. We validate it on both classical (ResNet) and modern (ConvNeXt) models: on three downstream tasks, it surpasses both state-of-the-art contrastive learning and transformer-based masked modeling by similarly large margins (around +1.0%). Improvements on object detection and instance segmentation are more substantial (up to +3.5%), verifying the strong transferability of features learned. We also find its favorable scaling behavior by observing more gains on larger models. All this evidence reveals a promising future of generative pre-training on convnets. Codes and models are released at https://github.com/keyu-tian/SparK.
Abstract（参考訳）: BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する上での2つの重要な障害を特定し克服する。 (i)畳み込み操作は、不規則で無作為な入力画像を処理できない。 (ii) bertプリトレーニングの単スケール性は、convnetの階層構造と矛盾する。のために i) 未知の画素を3次元点雲のスパースボクセルとして扱い, スパース畳み込みを用いてエンコードする。これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。のために (II) 階層型デコーダを開発し, マルチスケール特徴量から画像を再構成する。 Sparse masKed Modeling (SparK) と呼ばれる手法は一般的に、バックボーンの修正なしに任意の畳み込みモデル上で直接使用できる。古典的(ResNet)モデルと現代的(ConvNeXt)モデルの両方で検証する:3つの下流タスクでは、最先端のコントラスト学習とトランスフォーマーベースのマスクモデリングを、同様に大きなマージン(約+1.0%)で上回る。オブジェクト検出とインスタンスセグメンテーションの改善(+3.5%まで)により、学習した機能の強い転送可能性を検証する。また、より大きなモデルでより多くの利得を観察することで、その好ましいスケーリング行動を見つけます。これらすべての証拠は、convnetsにおける生成前訓練の有望な未来を明らかにする。コードとモデルはhttps://github.com/keyu-tian/sparkでリリースされている。

関連論文リスト

Next-Scale Autoregressive Models are Zero-Shot Single-Image Object View Synthesizers [4.015569252776372]
ArchonViewは,3Dレンダリングデータのみをスクラッチからトレーニングし,2D事前トレーニングを行わないにも関わらず,最先端のメソッドをはるかに上回る方法である。また,従来の手法が失敗する難易度カメラにも頑健な性能を示し,拡散よりも推論速度が数倍高速であることを示す。
論文参考訳（メタデータ） (2025-03-17T17:59:59Z)
HySparK: Hybrid Sparse Masking for Large Scale Medical Image Pre-Training [21.444098313697044]
本稿では,マスク画像モデリングに基づく生成前トレーニング戦略を提案し,医療画像の大規模事前トレーニングに応用する。我々は,高密度なマルチスケール特徴再構成を実現するために,スキップ接続を備えた単純な階層型デコーダを用いる。
論文参考訳（メタデータ） (2024-08-11T16:31:39Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
Not All Image Regions Matter: Masked Vector Quantization for Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-23T02:15:53Z)
Learning 3D Representations from 2D Pre-trained Models via Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。 I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文参考訳（メタデータ） (2022-12-13T17:59:20Z)
Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文参考訳（メタデータ） (2021-11-11T18:46:40Z)
Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文参考訳（メタデータ） (2020-06-22T17:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。