論文の概要: S2-UniSeg: Fast Universal Agglomerative Pooling for Scalable Segment Anything without Supervision
- arxiv url: http://arxiv.org/abs/2508.06995v2
- Date: Wed, 13 Aug 2025 19:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 11:31:31.72504
- Title: S2-UniSeg: Fast Universal Agglomerative Pooling for Scalable Segment Anything without Supervision
- Title(参考訳): S2-UniSeg: スーパービジョンのないスケーラブルセグメンテーションのための高速ユニバーサルアグリメティブプール
- Authors: Huihui Xu, Jin Ye, Hongqiu Wang, Changkai Ji, Jiashi Lin, Ming Hu, Ziyan Huang, Ying Chen, Chenglong Ma, Tianbin Li, Lihao Liu, Junjun He, Lei Zhu,
- Abstract要約: 我々は,新しい擬似マスクアルゴリズム,Fast Universal Agglomerative Pooling(UniAP)を提案する。
継続事前学習のための新しいスーパービジョン・ユニバーサル・セグメンテーション(S2-UniSeg)を提案する。
S2-UniSegは4つのベンチマークでSOTA UnSAMモデルを上回っている。
- 参考スコア(独自算出の注目度): 17.005998805118814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent self-supervised image segmentation models have achieved promising performance on semantic segmentation and class-agnostic instance segmentation. However, their pretraining schedule is multi-stage, requiring a time-consuming pseudo-masks generation process between each training epoch. This time-consuming offline process not only makes it difficult to scale with training dataset size, but also leads to sub-optimal solutions due to its discontinuous optimization routine. To solve these, we first present a novel pseudo-mask algorithm, Fast Universal Agglomerative Pooling (UniAP). Each layer of UniAP can identify groups of similar nodes in parallel, allowing to generate both semantic-level and instance-level and multi-granular pseudo-masks within ens of milliseconds for one image. Based on the fast UniAP, we propose the Scalable Self-Supervised Universal Segmentation (S2-UniSeg), which employs a student and a momentum teacher for continuous pretraining. A novel segmentation-oriented pretext task, Query-wise Self-Distillation (QuerySD), is proposed to pretrain S2-UniSeg to learn the local-to-global correspondences. Under the same setting, S2-UniSeg outperforms the SOTA UnSAM model, achieving notable improvements of AP+6.9 on COCO, AR+11.1 on UVO, PixelAcc+4.5 on COCOStuff-27, RQ+8.0 on Cityscapes. After scaling up to a larger 2M-image subset of SA-1B, S2-UniSeg further achieves performance gains on all four benchmarks. Our code and pretrained models are available at https://github.com/bio-mlhui/S2-UniSeg
- Abstract(参考訳): 最近の自己教師付きイメージセグメンテーションモデルは、セマンティックセグメンテーションとクラス非依存のインスタンスセグメンテーションで有望な性能を達成した。
しかし、事前トレーニングスケジュールは多段階であり、各トレーニングエポック間での時間を要する擬似マスクの生成プロセスが必要である。
この時間のかかるオフラインプロセスは、トレーニングデータセットのサイズでスケールすることが難しくなるだけでなく、不連続な最適化ルーチンのために、サブ最適化ソリューションにつながる。
そこで我々はまず,新しい擬似マスクアルゴリズムであるFast Universal Agglomerative Pooling(UniAP)を提案する。
UniAPの各レイヤは、類似ノードのグループを並列に識別することができ、セマンティックレベルとインスタンスレベルの両方を、1つの画像に対してミリ秒以内で生成することができる。
高速UniAPに基づくS2-UniSeg(Scalable Self-Supervised Universal Segmentation)を提案する。
そこで,S2-UniSeg をプレトレーニングし,局所的・言語的対応を学習するために,新しいセグメンテーション指向のプレテキストタスク Query-wise Self-Distillation (QuerySD) を提案する。
同じ設定で、S2-UniSegはSOTA UnSAMモデルより優れており、COCOではAP+6.9、UVOではAR+11.1、COCOStuff-27ではPixelAcc+4.5、CityscapesではRQ+8.0が顕著に改善されている。
SA-1Bの2Mイメージのサブセットにスケールアップした後、S2-UniSegはさらに4つのベンチマークでパフォーマンス向上を実現している。
私たちのコードと事前訓練されたモデルはhttps://github.com/bio-mlhui/S2-UniSegで利用可能です。
関連論文リスト
- Unsupervised Universal Image Segmentation [59.0383635597103]
本稿では,Unsupervised Universal Model (U2Seg) を提案する。
U2Segは、自己教師付きモデルを利用して、これらのセグメンテーションタスクの擬似意味ラベルを生成する。
次に、これらの擬似意味ラベル上でモデルを自己学習し、かなりの性能向上をもたらす。
論文 参考訳(メタデータ) (2023-12-28T18:59:04Z) - Matcher: Segment Anything with One Shot Using All-Purpose Feature
Matching [63.88319217738223]
市販の視覚基礎モデルを用いて様々な知覚課題に対処する新しい知覚パラダイムであるMatcherを提案する。
Matcherは、様々なセグメンテーションタスクにまたがる印象的な一般化パフォーマンスを、すべてトレーニングなしでデモする。
我々の結果は、野生の画像に適用されたMatcherのオープンワールドの一般性と柔軟性をさらに示すものである。
論文 参考訳(メタデータ) (2023-05-22T17:59:43Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Iterative, Deep Synthetic Aperture Sonar Image Segmentation [21.319490900396474]
SAS画像セグメンテーションのための非教師なし学習フレームワークIterative Deep Unsupervised (IDUS)を提案する。
IDUSは,1)ディープネットワークのクラス割り当てを推定する,2)ディープネットワークからの低レベルの画像特徴をスーパーピクセルにクラスタ化する,3)スーパーピクセルをクラス割り当てにクラスタ化する,4)ディープネットワーク予測の損失バックプロパゲーションに擬似ラベルを使用する,の4つのステップに分けることができる。
SAS画像セグメンテーションのための現実的なベンチマークデータセットにおけるIDUSと最先端手法の比較は,提案手法の利点を実証するものである。
論文 参考訳(メタデータ) (2022-03-28T20:41:24Z) - Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and
Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。
SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。
Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文 参考訳(メタデータ) (2022-03-19T09:19:55Z) - MultiSiam: Self-supervised Multi-instance Siamese Representation
Learning for Autonomous Driving [45.23708547617418]
自己教師型学習は、モデルパフォーマンスを改善するための有望な方法かもしれない。
既存のSSLメソッドは通常、単一中心オブジェクト保証に依存している。
一般化能力の向上と最先端転送性能を実現するため,マルチインスタンス・シームズ・ネットワーク(MultiSiam)を提案する。
論文 参考訳(メタデータ) (2021-08-27T08:47:01Z) - Unifying Instance and Panoptic Segmentation with Dynamic Rank-1
Convolutions [109.2706837177222]
DR1Maskは、インスタンスとセマンティックセグメンテーションの両方で共有機能マップを利用する最初のパノプティクスセグメンテーションフレームワークである。
副産物として、DR1Maskは従来の最先端のインスタンスセグメンテーションネットワークであるBlendMaskよりも10%高速で1ポイント精度が高い。
論文 参考訳(メタデータ) (2020-11-19T12:42:10Z) - 1st Place Solutions for OpenImage2019 -- Object Detection and Instance
Segmentation [116.25081559037872]
この記事では,2つのチャンピオンチーム,検出トラックのMMfruit'とセグメンテーショントラックのMMfruitSeg'のソリューションについて,OpenImage Challenge 2019で紹介する。
一般に、対象検出器の場合、バックボーンの端の共有特徴は分類と回帰の両方に適さないことが知られている。
自己学習型最適特徴抽出によりオブジェクトの分類と回帰を分離するデカップリングヘッド(DH)を提案する。
論文 参考訳(メタデータ) (2020-03-17T06:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。