論文の概要: Dual-Thresholding Heatmaps to Cluster Proposals for Weakly Supervised Object Detection
- arxiv url: http://arxiv.org/abs/2509.08289v1
- Date: Wed, 10 Sep 2025 05:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.315413
- Title: Dual-Thresholding Heatmaps to Cluster Proposals for Weakly Supervised Object Detection
- Title(参考訳): 弱監視対象検出のためのクラスタ化提案に対する2次元ヒートマップ
- Authors: Yuelin Guo, Haoyu He, Zhiyuan Chen, Zitong Huang, Renhao Lu, Lu Shi, Zejun Wang, Weizhe Zhang,
- Abstract要約: 近年,WSOD (Weakly supervised Object Detection) が注目されている。
本稿では,各提案をバックグラウンドクラス表現で拡張する弱教師付き基本検出ネットワーク(WSBDN)を提案する。
VOC 2007ではmAP/mCorLocスコアが58.5%/81.8%、VOC 2012では55.6%/80.5%となり、最先端のWSOD法に対して良好に機能する。
- 参考スコア(独自算出の注目度): 19.807828545088082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised object detection (WSOD) has attracted significant attention in recent years, as it does not require box-level annotations. State-of-the-art methods generally adopt a multi-module network, which employs WSDDN as the multiple instance detection network module and multiple instance refinement modules to refine performance. However, these approaches suffer from three key limitations. First, existing methods tend to generate pseudo GT boxes that either focus only on discriminative parts, failing to capture the whole object, or cover the entire object but fail to distinguish between adjacent intra-class instances. Second, the foundational WSDDN architecture lacks a crucial background class representation for each proposal and exhibits a large semantic gap between its branches. Third, prior methods discard ignored proposals during optimization, leading to slow convergence. To address these challenges, we first design a heatmap-guided proposal selector (HGPS) algorithm, which utilizes dual thresholds on heatmaps to pre-select proposals, enabling pseudo GT boxes to both capture the full object extent and distinguish between adjacent intra-class instances. We then present a weakly supervised basic detection network (WSBDN), which augments each proposal with a background class representation and uses heatmaps for pre-supervision to bridge the semantic gap between matrices. At last, we introduce a negative certainty supervision loss on ignored proposals to accelerate convergence. Extensive experiments on the challenging PASCAL VOC 2007 and 2012 datasets demonstrate the effectiveness of our framework. We achieve mAP/mCorLoc scores of 58.5%/81.8% on VOC 2007 and 55.6%/80.5% on VOC 2012, performing favorably against the state-of-the-art WSOD methods. Our code is publicly available at https://github.com/gyl2565309278/DTH-CP.
- Abstract(参考訳): ボックスレベルのアノテーションを必要としないため,近年,弱教師付きオブジェクト検出 (WSOD) が注目されている。
最先端の手法は一般にマルチモジュールネットワークを採用し、WSDDNを複数のインスタンス検出ネットワークモジュールと複数のインスタンス修正モジュールとして使用して性能を向上する。
しかし、これらのアプローチには3つの重要な制限がある。
まず、既存のメソッドは擬似的なGTボックスを生成する傾向があり、それは識別的な部分のみに焦点を当て、オブジェクト全体をキャプチャできないか、オブジェクト全体をカバーできないが、隣のクラス内のインスタンスを区別できない。
第2に、基礎となるWSDDNアーキテクチャは、各提案に重要なバックグラウンドクラス表現がなく、そのブランチの間に大きな意味的ギャップがあることを示している。
第三に、事前のメソッドは最適化中に無視された提案を捨て、収束が遅くなりました。
これらの課題に対処するために、まず、ヒートマップ上の2つのしきい値を利用して提案を事前選択するヒートマップ誘導提案セレクタ(HGPS)アルゴリズムを設計する。
次に、弱教師付き基本検出ネットワーク(WSBDN)を提案し、各提案を背景クラス表現で拡張し、行列間のセマンティックギャップをブリッジするために、事前設定にヒートマップを使用する。
最終的に、収束を加速するために無視された提案に対して、負の確実性による監督損失を導入する。
PASCAL VOC 2007と2012のデータセットに関する大規模な実験は、我々のフレームワークの有効性を実証している。
VOC 2007ではmAP/mCorLocスコアが58.5%/81.8%、VOC 2012では55.6%/80.5%となり、最先端のWSOD法に対して良好に機能する。
私たちのコードはhttps://github.com/gyl2565309278/DTH-CPで公開されています。
関連論文リスト
- PropVG: End-to-End Proposal-Driven Visual Grounding with Multi-Granularity Discrimination [23.54011217288122]
PropVGは、前景オブジェクトの提案生成と参照オブジェクトの理解をシームレスに統合するエンドツーエンドの提案ベースのフレームワークである。
文レベルと単語レベルでのコントラスト学習を活用し,参照対象の理解・識別能力を高めるコントラストベースの参照スコアリング(CRS)モジュールを提案する。
また、オブジェクトレベルと意味レベル情報を融合させて、欠落したターゲットの認識を改善するマルチグラニュラリティターゲット識別(MTD)モジュールを設計する。
論文 参考訳(メタデータ) (2025-09-05T06:30:06Z) - P2Object: Single Point Supervised Object Detection and Instance Segmentation [58.778288785355]
バランスの取れたtextbftextitinstance レベルの提案バッグを構成する Point-to-Box Network (P2BNet) を導入する。
P2MNetはより正確なバウンディングボックスを生成し、セグメンテーションタスクに一般化することができる。
提案手法は,COCO,VOC,Cityscapesの平均精度において,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2025-04-10T14:51:08Z) - PETDet: Proposal Enhancement for Two-Stage Fine-Grained Object Detection [26.843891792018447]
PETDet (Proposal Enhancement for Two-stage fine-fine object detection) は, 2段階FGOD法において, サブタスクをよりよく扱うために提案される。
動的ラベル割り当てと注意に基づく分解により, アンカーフリー品質指向提案ネットワーク(QOPN)を提案する。
A novel Adaptive Recognition Loss (ARL)は、R-CNNの責任者が高品質な提案に焦点を合わせるためのガイダンスを提供する。
論文 参考訳(メタデータ) (2023-12-16T18:04:56Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Boundary-semantic collaborative guidance network with dual-stream
feedback mechanism for salient object detection in optical remote sensing
imagery [22.21644705244091]
二重ストリームフィードバック機構を備えた境界意味協調誘導ネットワーク(BSCGNet)を提案する。
BSCGNetは、近年提案されている17の最先端(SOTA)アプローチよりも優れた、挑戦的なシナリオにおいて、明確なアドバンテージを示している。
論文 参考訳(メタデータ) (2023-03-06T03:36:06Z) - ProposalContrast: Unsupervised Pre-training for LiDAR-based 3D Object
Detection [114.54835359657707]
ProposalContrastは、教師なしのポイントクラウド事前トレーニングフレームワークである。
地域提案と対比することで、堅牢な3D表現を学習する。
ProposalContrastは様々な3D検出器で検証される。
論文 参考訳(メタデータ) (2022-07-26T04:45:49Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - Contrastive Proposal Extension with LSTM Network for Weakly Supervised
Object Detection [52.86681130880647]
画像レベルのラベルしか使用せず、膨大なアノテーションコストを節約できるため、WSOD (Weakly supervised Object Detection) が注目されている。
本稿では,初期提案と拡張提案を比較して,初期提案を最適化する手法を提案する。
PASCAL VOC 2007 と VOC 2012 と MS-COCO のデータセットを用いた実験により,本手法は最先端の結果を得た。
論文 参考訳(メタデータ) (2021-10-14T16:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。