論文の概要: ProMerge: Prompt and Merge for Unsupervised Instance Segmentation
- arxiv url: http://arxiv.org/abs/2409.18961v1
- Date: Fri, 27 Sep 2024 17:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 07:41:44.841693
- Title: ProMerge: Prompt and Merge for Unsupervised Instance Segmentation
- Title(参考訳): ProMerge: 教師なしインスタンスセグメンテーションのためのプロンプトとマージ
- Authors: Dylan Li, Gyungin Shin,
- Abstract要約: 教師なしのインスタンスセグメンテーションは、人間のラベル付きデータに頼ることなく、イメージ内の異なるオブジェクトインスタンスをセグメントすることを目的としている。
最近の最先端のアプローチでは、自己教師機能を使用して画像をグラフとして表現し、一般化された固有値系を解き、前景マスクを生成する。
Prompt and Merge(ProMerge)を提案する。これは、セルフ教師付き視覚機能を利用して、パッチの初期グループ化を取得し、これらのセグメントに戦略的マージを適用する。
- 参考スコア(独自算出の注目度): 4.297070083645049
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unsupervised instance segmentation aims to segment distinct object instances in an image without relying on human-labeled data. This field has recently seen significant advancements, partly due to the strong local correspondences afforded by rich visual feature representations from self-supervised models (e.g., DINO). Recent state-of-the-art approaches use self-supervised features to represent images as graphs and solve a generalized eigenvalue system (i.e., normalized-cut) to generate foreground masks. While effective, this strategy is limited by its attendant computational demands, leading to slow inference speeds. In this paper, we propose Prompt and Merge (ProMerge), which leverages self-supervised visual features to obtain initial groupings of patches and applies a strategic merging to these segments, aided by a sophisticated background-based mask pruning technique. ProMerge not only yields competitive results but also offers a significant reduction in inference time compared to state-of-the-art normalized-cut-based approaches. Furthermore, when training an object detector using our mask predictions as pseudo-labels, the resulting detector surpasses the current leading unsupervised model on various challenging instance segmentation benchmarks.
- Abstract(参考訳): 教師なしのインスタンスセグメンテーションは、人間のラベル付きデータに頼ることなく、イメージ内の異なるオブジェクトインスタンスをセグメントすることを目的としている。
この分野は最近、自己教師付きモデル(例えば、DINO)の豊かな視覚特徴表現によって得られる強い局所的対応のために、顕著な進歩を遂げている。
最近の最先端のアプローチでは、自己教師機能を使用して画像をグラフとして表現し、一般化された固有値システム(正規化カット)を解き、前景マスクを生成する。
効果的ではあるが、この戦略は付随する計算要求によって制限され、推論速度が遅くなる。
本稿では,プロンプト・アンド・マージ(Prompt and Merge, ProMerge, Prompt and Merge, ProMerge)を提案する。
ProMergeは競争結果を得るだけでなく、最先端の正規化カットベースのアプローチに比べて推論時間を大幅に短縮する。
さらに,マスク予測を擬似ラベルとして用いた物体検出装置のトレーニングでは,様々な難解なインスタンスセグメンテーションベンチマークにおいて,現行の非教師なしモデルを上回る結果が得られた。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - From Few to More: Scribble-based Medical Image Segmentation via Masked Context Modeling and Continuous Pseudo Labels [17.433808197776003]
医用画像セグメンテーションのための弱教師付きフレームワークを提案する。
MaCoはマスク付きコンテキストモデリングと連続擬似ラベルを採用している。
3つの公開データセットを用いて、他の弱教師付き手法に対するMaCoの評価を行った。
論文 参考訳(メタデータ) (2024-08-23T03:19:20Z) - Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals [15.258631373740686]
教師なしセマンティックセグメンテーションは、画像コーパス内のグローバルセマンティックカテゴリをアノテーションなしで識別することで、画像を自動的に意味のある領域に分割することを目的としている。
そこで,PriMaP - 主マスク提案 - 特徴表現に基づいてイメージを意味的に意味のあるマスクに分解する。
これにより、予測最大化アルゴリズムであるPriMaPs-EMを用いて、クラスプロトタイプをPriMaPsに適合させることで、教師なしセマンティックセマンティックセマンティクスを実現することができる。
論文 参考訳(メタデータ) (2024-04-25T17:58:09Z) - Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM [55.93697196726016]
本稿では,SEEM(Seegment-Everything-Everywhere Model)を用いた簡易かつ効果的な群集カウント手法を提案する。
密集した群集シーンにおけるSEEMの性能は,高密度領域の多くの人々が欠落していることが主な原因である。
提案手法は,群集カウントにおいて最高の教師なし性能を実現すると同時に,いくつかの教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-02-27T13:55:17Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - PWISeg: Point-based Weakly-supervised Instance Segmentation for Surgical
Instruments [27.89003436883652]
我々はPWISeg (Point-based Weakly-supervised Instance) という,弱制御型手術器具セグメンテーション手法を提案する。
PWISegは、特徴点とバウンディングボックスの関係をモデル化するために、ポイント・ツー・ボックスとポイント・ツー・マスクのブランチを備えたFCNベースのアーキテクチャを採用している。
そこで本研究では,キー・ツー・マスク・ブランチを駆動し,より正確なセグメンテーション予測を生成するキー・ピクセル・アソシエーション・ロスとキー・ピクセル・アソシエーション・ロスを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:48:29Z) - Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo
Labeling and Multi-scale Feature Grouping [40.07070188661184]
Wakly-Supervised Concealed Object (WSCOS) は、周囲の環境とうまく融合したオブジェクトを分割することを目的としている。
内在的な類似性のため、背景から隠された物体を区別することは困難である。
これら2つの課題に対処する新しいWSCOS手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T14:31:34Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - GANSeg: Learning to Segment by Unsupervised Hierarchical Image
Generation [16.900404701997502]
本稿では,潜伏マスクに条件付き画像を生成するGANベースのアプローチを提案する。
このようなマスク条件の画像生成は、マスクを階層的に条件付ける際に忠実に学習できることを示す。
また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアの生成も可能で、既存のベンチマークでは、最先端の教師なしセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T07:57:56Z) - Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals [78.12377360145078]
画素埋め込みを学習するために、コントラスト最適化の目的として、予め決められた事前を取り入れた新しい2段階フレームワークを導入する。
これは、プロキシタスクやエンドツーエンドのクラスタリングに依存する既存の作業から大きく逸脱している。
特に、PASCALでラベル付き例の1%だけを用いて学習した表現を微調整すると、7.1% mIoUで教師付き ImageNet の事前トレーニングを上回ります。
論文 参考訳(メタデータ) (2021-02-11T18:54:47Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。