論文の概要: Boxes2Pixels: Learning Defect Segmentation from Noisy SAM Masks
- arxiv url: http://arxiv.org/abs/2604.11162v1
- Date: Mon, 13 Apr 2026 08:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.423472
- Title: Boxes2Pixels: Learning Defect Segmentation from Noisy SAM Masks
- Title(参考訳): Boxes2Pixels: ノイズの多いSAMマスクから欠陥セグメンテーションを学ぶ
- Authors: Camile Lendering, Erkut Akdag, Egor Bondarev,
- Abstract要約: ノイズローバストなボックス・ツー・ピクセル蒸留フレームワークであるBoxes2Pixelsが提案され,SAMを地道管理の源としてではなく,ノイズの多い教師として扱う。
手動でアノテートされた風力タービン検査ベンチマークでは、提案されたBoxes2Pixelsは異常mIoUを+6.97で、バイナリIoUを+9.71で改善した。
- 参考スコア(独自算出の注目度): 6.476948781728136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate defect segmentation is critical for industrial inspection, yet dense pixel-level annotations are rarely available. A common workaround is to convert inexpensive bounding boxes into pseudo-masks using foundation segmentation models such as the Segment Anything Model (SAM). However, these pseudo-labels are systematically noisy on industrial surfaces, often hallucinating background structure while missing sparse defects. To address this limitation, a noise-robust box-to-pixel distillation framework, Boxes2Pixels, is proposed that treats SAM as a noisy teacher rather than a source of ground-truth supervision. Bounding boxes are converted into pseudo-masks offline by SAM, and a compact student is trained with (i) a hierarchical decoder over frozen DINOv2 features for semantic stability, (ii) an auxiliary binary localization head to decouple sparse foreground discovery from class prediction, and (iii) a one-sided online self-correction mechanism that relaxes background supervision when the student is confident, targeting teacher false negatives. On a manually annotated wind turbine inspection benchmark, the proposed Boxes2Pixels improves anomaly mIoU by +6.97 and binary IoU by +9.71 over the strongest baseline trained under identical weak supervision. Moreover, online self-correction increases the binary recall by +18.56, while the model employs 80\% fewer trainable parameters. Code is available at https://github.com/CLendering/Boxes2Pixels.
- Abstract(参考訳): 欠陥の正確なセグメンテーションは産業検査にとって重要であるが、密度の高いピクセルレベルのアノテーションはめったに利用できない。
一般的な回避策は、Segment Anything Model (SAM)のような基盤セグメンテーションモデルを用いて、安価なバウンディングボックスを擬似マスクに変換することである。
しかしながら、これらの擬似ラベルは、工業的表面において体系的にノイズがあり、しばしばスパース欠陥を欠きながら背景構造を幻覚させる。
この制限に対処するため, SAM を地道監督の源としてではなく, ノイズの多い教師として扱う, ノイズロスのボックス・ツー・ピクセル蒸留フレームワーク Boxes2Pixels が提案されている。
境界ボックスはSAMによってオフラインで擬似マスクに変換され、コンパクトな学生が訓練される
i) セマンティック安定性のための凍結DINOv2機能上の階層的デコーダ。
二 クラス予測からスパースフォアグラウンド発見を分離する補助二元化ヘッド
三 学生が自信のあるときに背景監督を緩める一方的なオンライン自己補正機構で、教師の虚偽の否定を狙う。
手動でアノテートされた風力タービン検査ベンチマークでは、提案されたBoxes2Pixelsは異常mIoUを+6.97で、バイナリIoUを+9.71で改善した。
さらに、オンラインの自己補正によってバイナリリコールが+18.56増加し、モデルではトレーニング可能なパラメータが80%少なくなっている。
コードはhttps://github.com/CLendering/Boxes2Pixelsで入手できる。
関連論文リスト
- SAMITE: Position Prompted SAM2 with Calibrated Memory for Visual Object Tracking [58.35852822355312]
Visual Object Tracking (VOT)は、ビデオ内のターゲットを継続的に追跡する自律運転のようなアプリケーションで広く使われている。
これらの問題に対処するために、ビデオ基盤モデルSAM2をVOTに適用し、各フレームの追跡結果をメモリとして符号化し、残りのフレームを自己回帰的に条件付けする手法を提案する。
これらの課題に対処するために,SAM2 上にモジュールを追加して構築した SAMITE モデルを提案する。
論文 参考訳(メタデータ) (2025-07-29T12:11:56Z) - Prior2Former -- Evidential Modeling of Mask Transformers for Assumption-Free Open-World Panoptic Segmentation [74.55677741919035]
顕在学習に根ざしたセグメンテーション・ビジョン・トランスフォーマの最初のアプローチである Prefer2Former (P2F) を提案する。
P2Fは、ピクセル単位のバイナリマスク割り当てにおいて、モデル不確実性を計算するためのベータを組み込むことで、マスクビジョントランスフォーマーアーキテクチャを拡張している。
未知のクラスに対処するほとんどのセグメンテーションモデルとは異なり、P2FはOODデータサンプルへのアクセスや、ヴォイド(ラベルなし)クラスに対する対照的なトレーニングなしで動作する。
論文 参考訳(メタデータ) (2025-04-07T08:53:14Z) - Rethinking Pseudo-Label Guided Learning for Weakly Supervised Temporal Action Localization from the Perspective of Noise Correction [33.89781814072881]
擬似ラベルのノイズは,完全教師付き検出ヘッドの学習に干渉すると考えられる。
雑音ラベルにおける潜在的な有用な信号をすべて活用するための2段階雑音ラベル学習戦略を導入する。
本モデルでは,検出精度と推定速度において,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-19T17:31:40Z) - Tiny Object Detection with Single Point Supervision [48.88814240556747]
本稿では,航空画像におけるロバストな微小物体検出のためのポイント・インスツルメンテーション法を提案する。
点アノテーションにおけるスケールの曖昧さと位置変化からラベルノイズを扱うために、ポイント・インストラクターは教師-学生アーキテクチャを採用している。
この枠組みでは、画像領域のランダムマスキングにより回帰学習が促進され、教師はノイズの多い点アノテーションを粗い擬似ボックスに変換することができる。
第2段階では、これらの粗い擬似ボックスは動的多重インスタンス学習を用いて洗練され、最も信頼できるインスタンスを適応的に選択する。
論文 参考訳(メタデータ) (2024-12-08T07:13:17Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Semi-supervised 3D Object Detection with Proficient Teachers [114.54835359657707]
自律運転のシナリオにおけるクラウドベースの3Dオブジェクト検出器の優位性は、大量の正確なラベル付きサンプルに大きく依存している。
Pseudo-Labeling法はSSLフレームワークで一般的に使用されているが、教師モデルの低品質な予測は、その性能を著しく制限している。
そこで本研究では,教師モデルをさらに高度化することで,半教師付き3次元物体検出のためのPseudo-Labelingフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-26T04:54:03Z) - W2N:Switching From Weak Supervision to Noisy Supervision for Object
Detection [64.10643170523414]
弱い監督からうるさい監督(W2N)に切り替える新しいパラダイムを持つ新しいWSODフレームワークを提案する。
ローカライズ適応モジュールでは、元の擬似接地構造における識別部分の割合を減らすために正規化損失を提案する。
我々のW2Nは、既存の純粋なWSODメソッドや転送学習メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-07-25T12:13:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。