論文の概要: Lightweight Transformer Framework for Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2511.19765v1
- Date: Mon, 24 Nov 2025 22:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.19892
- Title: Lightweight Transformer Framework for Weakly Supervised Semantic Segmentation
- Title(参考訳): 弱教師付きセマンティックセグメンテーションのための軽量変圧器フレームワーク
- Authors: Ali Torabi, Sanjog Gaihre, Yaqoob Majeed,
- Abstract要約: 弱い教師付きセマンティックセマンティックセグメンテーション(WSSS)は、ノイズの多い未特定の手がかりから密集したマスクを学習しなければならない。
3つの小さな相乗的変化は、MiTバックボーンを変更することなく、弱い監督を著しく効果的にすることを示した。
提案手法であるCrispFormerは,(1)軽量エッジヘッドと境界認識損失を用いて細い物体の輪郭を監督する境界分岐,(2)画素ごとの不確かさを予測し,重み付けとセグメント化ログの残差補正に使用する不確実性誘導型精細化器,(3)静的結合を置き換える動的マルチスケール融合層をデコーダに拡張する。
- 参考スコア(独自算出の注目度): 0.45880283710344055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised semantic segmentation (WSSS) must learn dense masks from noisy, under-specified cues. We revisit the SegFormer decoder and show that three small, synergistic changes make weak supervision markedly more effective-without altering the MiT backbone or relying on heavy post-processing. Our method, CrispFormer, augments the decoder with: (1) a boundary branch that supervises thin object contours using a lightweight edge head and a boundary-aware loss; (2) an uncertainty-guided refiner that predicts per-pixel aleatoric uncertainty and uses it to weight losses and gate a residual correction of the segmentation logits; and (3) a dynamic multi-scale fusion layer that replaces static concatenation with spatial softmax gating over multi-resolution features, optionally modulated by uncertainty. The result is a single-pass model that preserves crisp boundaries, selects appropriate scales per location, and resists label noise from weak cues. Integrated into a standard WSSS pipeline (seed, student, and EMA relabeling), CrispFormer consistently improves boundary F-score, small-object recall, and mIoU over SegFormer baselines trained on the same seeds, while adding minimal compute. Our decoder-centric formulation is simple to implement, broadly compatible with existing SegFormer variants, and offers a reproducible path to higher-fidelity masks from image-level supervision.
- Abstract(参考訳): 弱い教師付きセマンティックセマンティックセグメンテーション(WSSS)は、ノイズの多い未特定の手がかりから密集したマスクを学習しなければならない。
我々は、SegFormerデコーダを再検討し、3つの小さなシナジスティックな変更が、MiTバックボーンを変更したり、重い後処理に依存することなく、弱い監視を著しく効果的にすることを示す。
筆者らの方法であるCrispFormerは,(1)軽量エッジヘッドと境界認識損失を用いて細い物体の輪郭を監督する境界分岐,(2)画素ごとの不確かさを予測し,その重み付けを施し,セグメンテーションログの残差補正に使用する不確実性誘導型精細化器,(3)マルチスケールの動的核融合層,(3)マルチ解像度特徴に対する空間的ソフトマックスゲーティングを置き換えた動的マルチスケール融合層を拡張した。
結果は、クリップ境界を保存し、位置ごとに適切なスケールを選択し、弱い手がかりからラベルノイズに抵抗するシングルパスモデルである。
標準のWSSSパイプライン(シード、学生、EMA relabeling)に統合されたCrispFormerは、同じシードでトレーニングされたSegFormerベースライン上の境界Fスコア、小オブジェクトリコール、mIoUを一貫して改善し、最小限の計算機能を追加する。
我々のデコーダ中心の定式化は実装が簡単で、既存のSegFormerと互換性があり、画像レベルの監視から高忠実度マスクへの再現可能なパスを提供する。
関連論文リスト
- Extremal Contours: Gradient-driven contours for compact visual attribution [5.6220652636435915]
恒星を監督するフレームワークが高密度マスクによってより複雑なものを実現する方法を示す。
ImageNetsでは、高密度マスクの極端の輪郭とマッチングし、ランニング・トゥ・ラン・ビジョンを改善したコンパクトな領域を生成する。
論文 参考訳(メタデータ) (2025-11-03T10:02:21Z) - Adaptive Gradient Calibration for Single-Positive Multi-Label Learning in Remote Sensing Image Scene Classification [20.29420915336209]
マルチラベル分類(MLC)は、リモートセンシング(RS)画像のより包括的なセマンティック理解を提供する。
単一陽性多ラベル学習(SPML)が出現し,各画像に関連ラベルが1つだけアノテートされ,そのモデルがラベルの全集合を回復することが期待されている。
本稿では,適応勾配(AdaGC)を,RS画像に適した新しい一般化可能なSPMLフレームワークとして提案する。
論文 参考訳(メタデータ) (2025-10-09T14:26:09Z) - BoundMatch: Boundary detection applied to semi-supervised segmentation [12.8995997687175]
半教師付きセマンティックセマンティックセグメンテーション(SS-SS)は,多彩なラベル付き画像を活用することで,高密度画素ラベリングの重いアノテーション負担を軽減することを目的としている。
本稿では,意味境界検出を教師と学生の整合性正規化パイプラインに明示的に統合する,新しいマルチタスクSS-SSフレームワークであるBoundMatchを提案する。
境界一貫性規則化マルチタスク学習(Bundary Consistency Regularized Multi-Task Learning)は,セグメンテーションマスクと詳細なセグメンテーション境界において,教師と生徒のモデル間の予測合意を強制する。
論文 参考訳(メタデータ) (2025-03-30T17:02:26Z) - MSP-MVS: Multi-Granularity Segmentation Prior Guided Multi-View Stereo [8.303396507129266]
MSP-MVSは,マルチグラニュラリティセグメンテーションを導入する手法である。
相関信頼画素の等価分布と分解クラスタリングを実装した。
また,グローバルな最小マッチングコストの特定を支援するために,差分サンプリングの相乗的3次元最適化も導入する。
論文 参考訳(メタデータ) (2024-07-27T19:00:44Z) - Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。
SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。
局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。
Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-10T15:27:43Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - The Devil is in the Boundary: Exploiting Boundary Representation for
Basis-based Instance Segmentation [85.153426159438]
本研究では,既存のグローバルマスクベースの手法を補完するグローバル境界表現を学習するために,Basisベースのインスタンス(B2Inst)を提案する。
私たちのB2Instは一貫した改善をもたらし、シーン内のインスタンス境界を正確に解析します。
論文 参考訳(メタデータ) (2020-11-26T11:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。