論文の概要: Label Mask AutoEncoder(L-MAE): A Pure Transformer Method to Augment
Semantic Segmentation Datasets
- arxiv url: http://arxiv.org/abs/2211.11242v1
- Date: Mon, 21 Nov 2022 08:15:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:50:59.972445
- Title: Label Mask AutoEncoder(L-MAE): A Pure Transformer Method to Augment
Semantic Segmentation Datasets
- Title(参考訳): label mask autoencoder(l-mae): 意味セグメンテーションデータセットを補完する純粋トランスフォーマー
- Authors: Jiaru Jia, Mingzhe Liu, Jiake Xie, Xin Chen, Aiqing Yang, Xin Jiang,
Hong Zhang, Yong Tang
- Abstract要約: 本稿では,Pixel-Level の簡易補完手法である Label Mask AutoEncoder (L-MAE) を提案する。
提案手法では, 平均4.1%のmIoUが改良され, 欠落情報を補うことができる。
Mask Ratioの設定を50%にすると、予測領域では、Pascal VOC 2012 と Cityscape でそれぞれ mIoU の 91.0% と 86.4% を達成する。
- 参考スコア(独自算出の注目度): 14.168711161433583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation models based on the conventional neural network can
achieve remarkable performance in such tasks, while the dataset is crucial to
the training model process. Significant progress in expanding datasets has been
made in semi-supervised semantic segmentation recently. However, completing the
pixel-level information remains challenging due to possible missing in a label.
Inspired by Mask AutoEncoder, we present a simple yet effective Pixel-Level
completion method, Label Mask AutoEncoder(L-MAE), that fully uses the existing
information in the label to predict results. The proposed model adopts the
fusion strategy that stacks the label and the corresponding image, namely Fuse
Map. Moreover, since some of the image information is lost when masking the
Fuse Map, direct reconstruction may lead to poor performance. Our proposed
Image Patch Supplement algorithm can supplement the missing information, as the
experiment shows, an average of 4.1% mIoU can be improved. The Pascal VOC2012
dataset (224 crop size, 20 classes) and the Cityscape dataset (448 crop size,
19 classes) are used in the comparative experiments. With the Mask Ratio
setting to 50%, in terms of the prediction region, the proposed model achieves
91.0% and 86.4% of mIoU on Pascal VOC 2012 and Cityscape, respectively,
outperforming other current supervised semantic segmentation models. Our code
and models are available at https://github.com/jjrccop/Label-Mask-Auto-Encoder.
- Abstract(参考訳): 従来のニューラルネットワークに基づくセマンティクスセグメンテーションモデルは、トレーニングモデルプロセスにおいてデータセットが不可欠であるのに対して、そのようなタスクにおいて顕著なパフォーマンスを達成することができる。
近年,半教師付きセマンティクスセグメンテーションにおいて,データセットの拡張が著しく進展している。
しかし,ラベルの欠落による画素レベル情報の完成は依然として困難である。
Mask AutoEncoderに触発されて、ラベル内の既存の情報を完全に利用して結果を予測する、単純で効果的なPixel-Level補完手法であるLabel Mask AutoEncoder(L-MAE)を提案する。
提案モデルでは,ラベルと対応するイメージ,すなわちFuse Mapを積み重ねる融合戦略を採用している。
さらに、Fuse Mapをマスキングする際に画像情報の一部が失われるため、直接復元は性能が低下する可能性がある。
提案する画像パッチサプリメントアルゴリズムは欠落した情報を補うことができ、実験によれば平均4.1%のmiouが改善できる。
比較実験ではPascal VOC2012データセット(224の作物サイズ、20のクラス)とCityscapeデータセット(448の作物サイズ、19のクラス)が使用される。
Mask Ratioの設定を50%とし、予測領域の観点から、提案モデルはPascal VOC 2012とCityscapeのmIoUの91.0%と86.4%を達成し、他の教師付きセマンティックセマンティックセグメンテーションモデルより優れている。
私たちのコードとモデルはhttps://github.com/jjrccop/label-mask-auto-encoderで利用可能です。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Towards Natural Image Matting in the Wild via Real-Scenario Prior [69.96414467916863]
我々は,COCOデータセット,すなわちCOCO-Mattingに基づく新しいマッチングデータセットを提案する。
構築されたCOCO-Mattingは、複雑な自然シナリオにおける38,251人のインスタンスレベルのアルファマットの広範なコレクションを含む。
ネットワークアーキテクチャにおいて、提案する特徴整合変換器は、きめ細かいエッジと透過性を抽出することを学ぶ。
提案したマットアライメントデコーダは、マット固有のオブジェクトを分割し、粗いマスクを高精度なマットに変換することを目的としている。
論文 参考訳(メタデータ) (2024-10-09T06:43:19Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - RADiff: Controllable Diffusion Models for Radio Astronomical Maps
Generation [6.128112213696457]
RADiffは、注釈付き無線データセット上でトレーニングされた条件拡散モデルに基づく生成的アプローチである。
完全合成画像アノテーションペアを生成して,任意のアノテートデータセットを自動的に拡張できることを示す。
論文 参考訳(メタデータ) (2023-07-05T16:04:44Z) - Contrastive Tuning: A Little Help to Make Masked Autoencoders Forget [10.290956481715387]
Masked Autoencoder Contrastive Tuning (MAE-CT)は、ラベルを使わずにオブジェクトのセマンティッククラスタを形成するようなリッチな機能をチューニングするためのシーケンシャルなアプローチである。
MaE-CTは手作りの強化に頼らず、最小限の拡張(クロップとフリップ)のみを使用しながら、しばしば最高のパフォーマンスを達成する。
MaE-CTは、リニアプローブ、k-NN、ローショット分類の精度、および教師なしクラスタリングの精度において、ImageNetで訓練された以前の自己教師手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-20T17:51:09Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。