論文の概要: The devil is in the object boundary: towards annotation-free instance segmentation using Foundation Models
- arxiv url: http://arxiv.org/abs/2404.11957v1
- Date: Thu, 18 Apr 2024 07:22:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 13:01:02.045498
- Title: The devil is in the object boundary: towards annotation-free instance segmentation using Foundation Models
- Title(参考訳): 悪魔はオブジェクト境界にある:ファンデーションモデルを用いたアノテーションのないインスタンスセグメンテーションへ
- Authors: Cheng Shi, Sibei Yang,
- Abstract要約: オブジェクト検出とインスタンスのセグメンテーションでは、SAMやDINOのような基礎モデルは満足なパフォーマンスを達成するのに苦労する。
我々は、新しい分類優先発見パイプラインにおいて、$textbfZip$, $textbfZ$ips up CL$textbfip$, SAMを提案する。
Zipは、COCOデータセット上のSAMのマスクAPを12.5%大きく向上させ、さまざまな設定で最先端のパフォーマンスを確立する。
- 参考スコア(独自算出の注目度): 24.53385855664792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models, pre-trained on a large amount of data have demonstrated impressive zero-shot capabilities in various downstream tasks. However, in object detection and instance segmentation, two fundamental computer vision tasks heavily reliant on extensive human annotations, foundation models such as SAM and DINO struggle to achieve satisfactory performance. In this study, we reveal that the devil is in the object boundary, \textit{i.e.}, these foundation models fail to discern boundaries between individual objects. For the first time, we probe that CLIP, which has never accessed any instance-level annotations, can provide a highly beneficial and strong instance-level boundary prior in the clustering results of its particular intermediate layer. Following this surprising observation, we propose $\textbf{Zip}$ which $\textbf{Z}$ips up CL$\textbf{ip}$ and SAM in a novel classification-first-then-discovery pipeline, enabling annotation-free, complex-scene-capable, open-vocabulary object detection and instance segmentation. Our Zip significantly boosts SAM's mask AP on COCO dataset by 12.5% and establishes state-of-the-art performance in various settings, including training-free, self-training, and label-efficient finetuning. Furthermore, annotation-free Zip even achieves comparable performance to the best-performing open-vocabulary object detecters using base annotations. Code is released at https://github.com/ChengShiest/Zip-Your-CLIP
- Abstract(参考訳): 大量のデータに基づいて事前トレーニングされたファンデーションモデルは、さまざまな下流タスクで印象的なゼロショット機能を示している。
しかし、オブジェクト検出とインスタンスのセグメンテーションにおいて、2つの基本的なコンピュータビジョンタスクは広範囲な人間のアノテーションに大きく依存しており、SAMやDINOのような基礎モデルは満足できる性能を達成するのに苦労している。
本研究では,デヴィルが対象境界内にあることを明らかにする。
インスタンスレベルのアノテーションにアクセスしたことがないCLIPが、特定の中間層のクラスタリング結果に先立って、非常に有益で強力なインスタンスレベルのバウンダリを提供できることを、私たちは初めて調査します。
この驚くべき観察の後、新しい分類優先発見パイプラインにおいて、$\textbf{Zip}$$\textbf{Z}$ips up CL$\textbf{ip}$ and SAMを提案し、アノテーションのない複雑なシーン対応のオープンボキャブラリオブジェクト検出とインスタンスセグメンテーションを可能にした。
Zipは、COCOデータセット上のSAMのマスクAPを12.5%向上させ、トレーニング不要、セルフトレーニング、ラベル効率の微調整など、さまざまな環境で最先端のパフォーマンスを確立する。
さらに、アノテーションのないZipは、ベースアノテーションを使用して最高のパフォーマンスのオープン語彙オブジェクト検出器に匹敵するパフォーマンスを実現している。
Codeはhttps://github.com/ChengShiest/Zip-Your-CLIPでリリースされる
関連論文リスト
- BAISeg: Boundary Assisted Weakly Supervised Instance Segmentation [9.6046915661065]
インスタンスレベルの監視なしにインスタンスレベルのマスクを抽出する方法は、弱教師付きインスタンスセグメンテーション(WSIS)の主な課題である
人気のあるWSIS手法は、画素間関係の学習を通じて変位場(DF)を推定し、インスタンスを識別するためのクラスタリングを実行する。
本稿では,画素レベルのアノテーションでインスタンスセグメンテーションを実現するWSISの新しいパラダイムであるBundary-Assisted Instance(BAISeg)を提案する。
論文 参考訳(メタデータ) (2024-05-27T15:14:09Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Improved Region Proposal Network for Enhanced Few-Shot Object Detection [23.871860648919593]
Few-shot Object Detection (FSOD) メソッドは、古典的なオブジェクト検出手法の限界に対する解決策として登場した。
FSODトレーニング段階において,未ラベルの新規物体を正のサンプルとして検出し,利用するための半教師付きアルゴリズムを開発した。
地域提案ネットワーク(RPN)の階層的サンプリング戦略の改善により,大規模オブジェクトに対するオブジェクト検出モデルの認識が向上する。
論文 参考訳(メタデータ) (2023-08-15T02:35:59Z) - Sparse Instance Activation for Real-Time Instance Segmentation [72.23597664935684]
本稿では,リアルタイムインスタンスセグメンテーションのための概念的・効率的・完全畳み込み型フレームワークを提案する。
SparseInstは非常に高速な推論速度を持ち、COCOベンチマークで40 FPSと37.9 APを達成した。
論文 参考訳(メタデータ) (2022-03-24T03:15:39Z) - FreeSOLO: Learning to Segment Objects without Annotations [191.82134817449528]
我々は,単純なインスタンスセグメンテーションメソッドSOLO上に構築された自己教師型インスタンスセグメンテーションフレームワークであるFreeSOLOを紹介する。
また,本手法では,複雑なシーンからオブジェクトを教師なしで検出する,新たなローカライズ対応事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-24T16:31:44Z) - Point Cloud Instance Segmentation with Semi-supervised Bounding-Box
Mining [17.69745159912481]
ラベル付きおよび未ラベルのバウンディングボックスを監視として使用した,最初の半教師付きポイントクラウドインスタンスセグメンテーションフレームワーク(SPIB)を紹介した。
提案手法は,近年の完全教師付き手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2021-11-30T08:40:40Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。