論文の概要: L-MAE: Masked Autoencoders are Semantic Segmentation Datasets Augmenter
- arxiv url: http://arxiv.org/abs/2211.11242v2
- Date: Sun, 1 Oct 2023 07:25:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 20:48:37.865953
- Title: L-MAE: Masked Autoencoders are Semantic Segmentation Datasets Augmenter
- Title(参考訳): l-mae: マスク付きオートエンコーダはセマンティクスセグメンテーションデータセット拡張である
- Authors: Jiaru Jia, Mingzhe Liu, Jiake Xie, Xin Chen, Hong Zhang, Feixiang
Zhao, Aiqing Yang
- Abstract要約: 本稿では,単純かつ効果的なラベルレベルの補完手法である textbf Mask AutoEncoder (L-MAE) を提案する。
提案されたモデルは、下流タスクにMask Auto-Encoderを適用した最初のモデルである。
実験では、L-MAE強化データセットでトレーニングされたモデルの13.5%のパフォーマンス向上が示されている。
- 参考スコア(独自算出の注目度): 8.183553437724603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating semantic segmentation datasets has consistently been laborious and
time-consuming, particularly in the context of large models or specialized
domains(i.e. Medical Imaging or Remote Sensing). Specifically, large models
necessitate a substantial volume of data, while datasets in professional
domains frequently require the involvement of domain experts. Both scenarios
are susceptible to inaccurate data labeling, which can significantly affect the
ultimate performance of the trained model. This paper proposes a simple and
effective label pixel-level completion method, \textbf{Label Mask AutoEncoder}
(L-MAE), which fully uses the existing information in the label to generate the
complete label. The proposed model are the first to apply the Mask Auto-Encoder
to downstream tasks. In detail, L-MAE adopts the fusion strategy that stacks
the label and the corresponding image, namely fuse map. Moreover, since some of
the image information is lost when masking the fuse map, direct reconstruction
may lead to poor performance. We proposed Image Patch Supplement algorithm to
supplement the missing information during the mask-reconstruct process, and
empirically found that an average of 4.1\% mIoU can be improved.
We conducted a experiment to evaluate the efficacy of L-MAE to complete the
dataset. We employed a degraded Pascal VOC dataset and the degraded dataset
enhanced by L-MAE to train an identical conventional semantic segmentation
model for the initial set of experiments. The results of these experiments
demonstrate a performance enhancement of 13.5\% in the model trained with the
L-MAE-enhanced dataset compared to the unenhanced dataset.
- Abstract(参考訳): セマンティックセグメンテーションデータセットの生成は、特に大規模モデルや特殊なドメイン(医用画像やリモートセンシング)の文脈において、一貫して手間と時間を要する。
特に、大きなモデルは大量のデータを必要としますが、専門分野のデータセットはドメインの専門家の関与を必要とします。
どちらのシナリオも不正確なデータラベリングの影響を受けやすいため、トレーニングされたモデルの最終的なパフォーマンスに大きな影響を与える可能性がある。
本稿では,ラベル内の既存の情報をフル活用してラベルを生成する,単純かつ効果的なラベルレベル補完手法である \textbf{Label Mask AutoEncoder} (L-MAE) を提案する。
提案モデルは,ダウンストリームタスクにマスクオートエンコーダを適用した最初のモデルである。
詳しくは、L-MAEはラベルと対応するイメージ、すなわちヒューズマップを積み重ねる融合戦略を採用する。
さらに、ヒューズマップをマスキングする際に画像情報の一部が失われるため、直接復元は性能が低下する可能性がある。
マスク再構成プロセス中に欠落した情報を補うための画像パッチ補正アルゴリズムを提案し,平均4.1\%miouの改善が可能であることを実証的に確認した。
データセットの完成にl-maeの有効性を評価する実験を行った。
L-MAEにより強化された劣化したパスカルVOCデータセットを用いて,実験の初期セットに対して同一の従来型セマンティックセグメンテーションモデルを訓練した。
これらの実験の結果、L-MAE強化データセットでトレーニングされたモデルにおいて、未拡張データセットと比較して13.5\%の性能向上が示された。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Towards Natural Image Matting in the Wild via Real-Scenario Prior [69.96414467916863]
我々は,COCOデータセット,すなわちCOCO-Mattingに基づく新しいマッチングデータセットを提案する。
構築されたCOCO-Mattingは、複雑な自然シナリオにおける38,251人のインスタンスレベルのアルファマットの広範なコレクションを含む。
ネットワークアーキテクチャにおいて、提案する特徴整合変換器は、きめ細かいエッジと透過性を抽出することを学ぶ。
提案したマットアライメントデコーダは、マット固有のオブジェクトを分割し、粗いマスクを高精度なマットに変換することを目的としている。
論文 参考訳(メタデータ) (2024-10-09T06:43:19Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - RADiff: Controllable Diffusion Models for Radio Astronomical Maps
Generation [6.128112213696457]
RADiffは、注釈付き無線データセット上でトレーニングされた条件拡散モデルに基づく生成的アプローチである。
完全合成画像アノテーションペアを生成して,任意のアノテートデータセットを自動的に拡張できることを示す。
論文 参考訳(メタデータ) (2023-07-05T16:04:44Z) - Contrastive Tuning: A Little Help to Make Masked Autoencoders Forget [10.290956481715387]
Masked Autoencoder Contrastive Tuning (MAE-CT)は、ラベルを使わずにオブジェクトのセマンティッククラスタを形成するようなリッチな機能をチューニングするためのシーケンシャルなアプローチである。
MaE-CTは手作りの強化に頼らず、最小限の拡張(クロップとフリップ)のみを使用しながら、しばしば最高のパフォーマンスを達成する。
MaE-CTは、リニアプローブ、k-NN、ローショット分類の精度、および教師なしクラスタリングの精度において、ImageNetで訓練された以前の自己教師手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-20T17:51:09Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。