論文の概要: Diffusion-Driven Two-Stage Active Learning for Low-Budget Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2510.22229v1
- Date: Sat, 25 Oct 2025 09:25:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.993541
- Title: Diffusion-Driven Two-Stage Active Learning for Low-Budget Semantic Segmentation
- Title(参考訳): 低予算セマンティックセグメンテーションのための拡散駆動2段階アクティブラーニング
- Authors: Jeongin Kim, Wonho Bae, YouLee Han, Giyeong Oh, Youngjae Yu, Danica J. Sutherland, Junhyug Noh,
- Abstract要約: 本稿では,セマンティックセグメンテーションのための2段階選択パイプラインを提案する。
ラベル付き画素のごく一部で高いセグメンテーション精度を実現する。
提案手法は, 極端画素予算体制下での既存ベースラインを著しく上回る。
- 参考スコア(独自算出の注目度): 33.970333069082294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation demands dense pixel-level annotations, which can be prohibitively expensive - especially under extremely constrained labeling budgets. In this paper, we address the problem of low-budget active learning for semantic segmentation by proposing a novel two-stage selection pipeline. Our approach leverages a pre-trained diffusion model to extract rich multi-scale features that capture both global structure and fine details. In the first stage, we perform a hierarchical, representation-based candidate selection by first choosing a small subset of representative pixels per image using MaxHerding, and then refining these into a diverse global pool. In the second stage, we compute an entropy-augmented disagreement score (eDALD) over noisy multi-scale diffusion features to capture both epistemic uncertainty and prediction confidence, selecting the most informative pixels for annotation. This decoupling of diversity and uncertainty lets us achieve high segmentation accuracy with only a tiny fraction of labeled pixels. Extensive experiments on four benchmarks (CamVid, ADE-Bed, Cityscapes, and Pascal-Context) demonstrate that our method significantly outperforms existing baselines under extreme pixel-budget regimes. Our code is available at https://github.com/jn-kim/two-stage-edald.
- Abstract(参考訳): セマンティックセグメンテーション(Semantic segmentation)は、特に非常に制約のあるラベル付け予算の下で、高額なピクセルレベルのアノテーションを要求する。
本稿では,新しい2段階選択パイプラインを提案することにより,セマンティックセグメンテーションのための低予算能動学習の問題に対処する。
提案手法では,事前学習した拡散モデルを用いて,グローバルな構造と細部の両方を捉えるリッチなマルチスケール特徴を抽出する。
第1段階では、MaxHerdingを用いて、まず画像ごとに代表画素の小さなサブセットを選択し、次にそれらを多様なグローバルプールに精製することで、階層的、表現に基づく候補選択を行う。
第2段階では, エントロピー拡張不一致スコア (eDALD) を多スケール拡散特性に対して算出し, エピステマ性不確実性と予測信頼度を計測し, アノテーションに最も有意な画素を選択する。
この多様性と不確実性の分離により、ラベル付きピクセルのごく一部で高いセグメンテーション精度が得られる。
これら4つのベンチマーク(CamVid,ADE-Bed,Cityscapes,Pascal-Context)の大規模な実験により,この手法が極端にピクセル・バッジ条件下で既存のベースラインを著しく上回ることを示した。
私たちのコードはhttps://github.com/jn-kim/two-stage-edald.comで公開されています。
関連論文リスト
- High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
拡散モデルは、例外的な品質、詳細な解像度、強い文脈認識を提供することによって、テキストと画像の合成に革命をもたらした。
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative
Grounding [24.787497472368244]
本稿では,各フレーズと対応する画素を直接マッチングする一段階のPixel-Phrase Matching Network (PPMN)を提案する。
提案手法は,PNGの4.0絶対平均リコールゲインを用いて,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2022-08-11T05:42:12Z) - SePiCo: Semantic-Guided Pixel Contrast for Domain Adaptive Semantic
Segmentation [52.62441404064957]
ドメイン適応セマンティックセグメンテーションは、ラベル付きソースドメインでトレーニングされたモデルを利用することで、ラベル付きターゲットドメイン上で満足のいく密度の予測を試みる。
多くの手法は、ノイズの多い擬似ラベルを緩和する傾向があるが、類似のセマンティックな概念を持つクロスドメインピクセル間の固有の接続を無視する。
本稿では,個々の画素のセマンティックな概念を強調する一段階適応フレームワークSePiCoを提案する。
論文 参考訳(メタデータ) (2022-04-19T11:16:29Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Semi-supervised Semantic Segmentation with Directional Context-aware
Consistency [66.49995436833667]
我々は、ラベル付きデータの小さなセットに、全くラベル付けされていない画像のより大きなコレクションを提供する半教師付きセグメンテーション問題に焦点をあてる。
好ましいハイレベル表現は、自己認識を失わずにコンテキスト情報をキャプチャするべきである。
我々は,DCロス(Directional Contrastive Loss)を画素対ピクセルの整合性を達成するために提示する。
論文 参考訳(メタデータ) (2021-06-27T03:42:40Z) - All you need are a few pixels: semantic segmentation with PixelPick [30.234492042103966]
そこで本研究では,十分なセグメンテーション性能を達成するためには,いくつかの精細なピクセルラベルだけでよいことを示す。
我々は,この現象をpixelpickと呼ばれるアクティブ学習フレームワークで活用し,ラベリングコストを劇的に削減する方法を実証する。
論文 参考訳(メタデータ) (2021-04-13T17:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。