論文の概要: Mask Hierarchical Features For Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2304.00218v1
- Date: Sat, 1 Apr 2023 04:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 19:12:46.739368
- Title: Mask Hierarchical Features For Self-Supervised Learning
- Title(参考訳): 自己指導型学習のためのマスク階層的特徴
- Authors: Fenggang Liu, Yangguang Li, Feng Liang, Jilan Xu, Bin Huang, Jing Shao
- Abstract要約: 本稿では,Masking the Deep Hierarchical featuresは,MaskDeepとして表される効率的な自己教師手法であることを示す。
我々は、表現空間内のパッチの一部を隠蔽し、疎可視パッチを使用して、高い意味的イメージ表現を再構築する。
200エポックでResNet50でトレーニングされたMaskDeepは、ImageNet上で71.2%の精度で線形分類を行う。
- 参考スコア(独自算出の注目度): 23.140060988999352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper shows that Masking the Deep hierarchical features is an efficient
self-supervised method, denoted as MaskDeep. MaskDeep treats each patch in the
representation space as an independent instance. We mask part of patches in the
representation space and then utilize sparse visible patches to reconstruct
high semantic image representation. The intuition of MaskDeep lies in the fact
that models can reason from sparse visible patches semantic to the global
semantic of the image. We further propose three designs in our framework: 1) a
Hierarchical Deep-Masking module to concern the hierarchical property of patch
representations, 2) a multi-group strategy to improve the efficiency without
any extra computing consumption of the encoder and 3) a multi-target strategy
to provide more description of the global semantic. Our MaskDeep brings decent
improvements. Trained on ResNet50 with 200 epochs, MaskDeep achieves
state-of-the-art results of 71.2% Top1 accuracy linear classification on
ImageNet. On COCO object detection tasks, MaskDeep outperforms the
self-supervised method SoCo, which specifically designed for object detection.
When trained with 100 epochs, MaskDeep achieves 69.6% Top1 accuracy, which
surpasses current methods trained with 200 epochs, such as HCSC, by 0.4% .
- Abstract(参考訳): 本稿では,Masking the Deep Hierarchical featuresは,MaskDeepとして表される効率的な自己教師手法であることを示す。
MaskDeepは、表現空間の各パッチを独立したインスタンスとして扱う。
表現空間のパッチの一部をマスクし、スパース可視性パッチを用いて高意味性画像表現を再構築する。
MaskDeepの直感は、モデルがわずかに見えるパッチの意味から画像のグローバルな意味へと推論できるという事実にある。
フレームワークにはさらに3つの設計を提案する。
1) パッチ表現の階層性に関する階層的なDeep-Maskingモジュール。
2)エンコーダの余分なコンピューティング消費を伴わずに効率を向上させるマルチグループ戦略
3)グローバルセマンティクスのより詳細な記述を提供するためのマルチターゲット戦略。
われわれのMaskDeepは、まともな改善をもたらす。
200エポックでResNet50でトレーニングされたMaskDeepは、ImageNet上で71.2%の精度で線形分類を行う。
COCOオブジェクト検出タスクでは、MaskDeepはオブジェクト検出用に特別に設計された自己教師型メソッドであるSoCoよりも優れている。
100エポックでトレーニングすると、MaskDeepは69.6%の精度で、HCSCなどの200エポックでトレーニングされた現在のメソッドを0.4%上回る。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - Unmasking Anomalies in Road-Scene Segmentation [18.253109627901566]
異常セグメンテーションはアプリケーションを駆動するための重要なタスクである。
本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。
Mask2Anomalyはマスク分類アーキテクチャに異常検出手法を統合する可能性を示した。
論文 参考訳(メタデータ) (2023-07-25T08:23:10Z) - MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - Layered Depth Refinement with Mask Guidance [61.10654666344419]
汎用マスクを用いてSIDEモデルの深度予測を洗練させるマスク誘導深度改善の新しい問題を定式化する。
本フレームワークは,奥行きマップをマスクと逆マスクで表される2つの別々の層に分解し,層状改質・塗装・塗装を行う。
本手法は,内面境界領域と外面境界領域の深度を正確に補正し,異なる種類のマスクや初期深度予測に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2022-06-07T06:42:44Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (2021-07-13T17:59:50Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。