論文の概要: Selective Masking based Self-Supervised Learning for Image Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2512.06981v1
- Date: Sun, 07 Dec 2025 20:21:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.61497
- Title: Selective Masking based Self-Supervised Learning for Image Semantic Segmentation
- Title(参考訳): 画像セマンティックセグメンテーションのための選択的マスキングに基づく自己教師付き学習
- Authors: Yuemin Wang, Ian Stavness,
- Abstract要約: 提案手法は従来のランダムマスキング法よりも優れており,下流のセグメンテーション精度に基づいてImageNetを事前訓練する。
提案する選択的マスキング画像再構成法は,エンドツーエンドのセマンティックセマンティックセグメンテーションを改善するために,効果的かつ実用的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 3.2190659800523562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a novel self-supervised learning method for semantic segmentation using selective masking image reconstruction as the pretraining task. Our proposed method replaces the random masking augmentation used in most masked image modelling pretraining methods. The proposed selective masking method selectively masks image patches with the highest reconstruction loss by breaking the image reconstruction pretraining into iterative steps to leverage the trained model's knowledge. We show on two general datasets (Pascal VOC and Cityscapes) and two weed segmentation datasets (Nassar 2020 and Sugarbeets 2016) that our proposed selective masking method outperforms the traditional random masking method and supervised ImageNet pretraining on downstream segmentation accuracy by 2.9% for general datasets and 2.5% for weed segmentation datasets. Furthermore, we found that our selective masking method significantly improves accuracy for the lowest-performing classes. Lastly, we show that using the same pretraining and downstream dataset yields the best result for low-budget self-supervised pretraining. Our proposed Selective Masking Image Reconstruction method provides an effective and practical solution to improve end-to-end semantic segmentation workflows, especially for scenarios that require limited model capacity to meet inference speed and computational resource requirements.
- Abstract(参考訳): 本稿では,選択的マスキング画像再構成を事前学習課題として用いた,セマンティックセマンティックセマンティックセマンティクスのための自己教師型学習手法を提案する。
提案手法は,マスク付き画像の事前学習に使用されるランダムマスクの強化を代替する。
提案手法は、訓練されたモデルの知識を活用するために、トレーニング済みのイメージ再構成を反復的なステップに分割することで、画像パッチを最も高い復元損失で選択的にマスキングする。
我々は,2つの一般的なデータセット (Pascal VOCとCityscapes) と2つの雑草セグメンテーションデータセット (Nassar 2020とSugarbeets 2016) について,提案手法が従来のランダムマスキング法より優れており,下流セグメンテーション精度が2.9%,雑草セグメンテーションデータセットが2.5%向上していることを示す。
さらに, 選択マスキング法は, 低性能クラスの精度を著しく向上させることがわかった。
最後に、同じ事前学習と下流データセットを使用することで、低予算の自己監督型事前学習に最適な結果が得られることを示す。
提案した選択的マスキング画像再構成法は,特に推論速度と計算資源の要求を満たすために限られたモデル容量を必要とするシナリオに対して,エンドツーエンドのセマンティックセマンティックセマンティクスワークフローを改善するための効果的かつ実用的なソリューションを提供する。
関連論文リスト
- Evolved Hierarchical Masking for Self-Supervised Learning [49.77271430882176]
既存のマスケ画像モデリング手法では、固定マスクパターンを適用して自己指導型トレーニングを指導する。
本稿では,自己教師型学習における一般的な視覚的手がかりモデリングを追求する階層型マスキング手法を提案する。
論文 参考訳(メタデータ) (2025-04-12T09:40:14Z) - Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。
私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文 参考訳(メタデータ) (2025-03-21T12:10:38Z) - Adapting Vision-Language Model with Fine-grained Semantics for Open-Vocabulary Segmentation [42.020470627552136]
オープン語彙のセグメンテーションは、主にマスク生成ではなく、マスク分類によってボトルネックとなる。
本稿では,この制限に対処するためのFISA法を提案する。
FISAは、視覚符号化プロセスの初期に、この重要な意味情報を明示的に統合することにより、抽出した視覚的特徴をきめ細かな意味認識で強化する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - Salience-Based Adaptive Masking: Revisiting Token Dynamics for Enhanced Pre-training [33.39585710223628]
適応型マスキングはトークンサリエンスを優先することでMIMアプローチの事前学習性能を向上させる。
本研究では,ImageNet-1Kデータセット上でのマスクによる事前学習において,最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-04-12T08:38:51Z) - Data-efficient Event Camera Pre-training via Disentangled Masked
Modeling [20.987277885575963]
イベントカメラのための新しいデータ教師付きボクセルベースの自己教師付き学習手法を提案する。
提案手法は,時間的情報を犠牲にしたり,ペア画像データを直接利用したりする従来の手法の限界を克服する。
優れた一般化性能を示し、パラメータが少なく、計算コストも低い様々なタスクで大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T10:02:25Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - DPPMask: Masked Image Modeling with Determinantal Point Processes [49.65141962357528]
Masked Image Modeling (MIM)は、ランダムにマスキングされた画像の再構成を目的として、印象的な代表的性能を達成した。
先行研究で広く使われている一様ランダムマスキングは、必然的にいくつかの重要なオブジェクトを失い、元のセマンティック情報を変更する。
この問題に対処するため、MIMを新しいマスキング戦略であるDPPMaskで強化する。
提案手法は単純だが有効であり,様々なフレームワークで実装される場合,余分に学習可能なパラメータは不要である。
論文 参考訳(メタデータ) (2023-03-13T13:40:39Z) - Investigating and Simplifying Masking-based Saliency Methods for Model
Interpretability [5.387323728379395]
画像の最も情報性の高い領域を識別する残差マップは、モデル解釈可能性に有用である。
唾液マップを作成するための一般的なアプローチは、画像の一部をマスクする入力マスクを生成することである。
マスキングモデルでは,クラス毎に10個のサンプルをトレーニングすることが可能であり,ローカライズエラーが0.7ポイントしか増加せず,いまだにサリエンシマップを生成可能であることを示す。
論文 参考訳(メタデータ) (2020-10-19T18:00:36Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。