論文の概要: SOS: Segment Object System for Open-World Instance Segmentation With Object Priors
- arxiv url: http://arxiv.org/abs/2409.14627v1
- Date: Sun, 22 Sep 2024 23:35:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 21:45:58.974878
- Title: SOS: Segment Object System for Open-World Instance Segmentation With Object Priors
- Title(参考訳): SOS: オブジェクトプライオリティを用いたオープンワールドインスタンスセグメンテーションのためのセグメンテーションオブジェクトシステム
- Authors: Christian Wilms, Tim Rolff, Maris Hillemann, Robert Johanson, Simone Frintrop,
- Abstract要約: 画像中の任意の未知のオブジェクトを、訓練中に限定された注釈付きオブジェクトの集合から一般化することで分割する手法を提案する。
提案手法はCOCO, LVIS, ADE20kデータセットに対して強力な一般化能力を示し, 最先端技術と比較して81.6%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 2.856781525749652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an approach for Open-World Instance Segmentation (OWIS), a task that aims to segment arbitrary unknown objects in images by generalizing from a limited set of annotated object classes during training. Our Segment Object System (SOS) explicitly addresses the generalization ability and the low precision of state-of-the-art systems, which often generate background detections. To this end, we generate high-quality pseudo annotations based on the foundation model SAM. We thoroughly study various object priors to generate prompts for SAM, explicitly focusing the foundation model on objects. The strongest object priors were obtained by self-attention maps from self-supervised Vision Transformers, which we utilize for prompting SAM. Finally, the post-processed segments from SAM are used as pseudo annotations to train a standard instance segmentation system. Our approach shows strong generalization capabilities on COCO, LVIS, and ADE20k datasets and improves on the precision by up to 81.6% compared to the state-of-the-art. Source code is available at: https://github.com/chwilms/SOS
- Abstract(参考訳): 本研究では,任意の未知のオブジェクトを画像に分割するタスクであるOpen-World Instance Segmentation (OWIS) を提案する。
我々のセグメンテーションオブジェクトシステム(SOS)は、背景検出をしばしば生成する最先端システムの一般化能力と低い精度に明示的に対応している。
この目的のために,基礎モデルSAMに基づいて高品質な擬似アノテーションを生成する。
我々は、SAMのプロンプトを生成するために、様々なオブジェクト先行を徹底的に研究し、基礎モデルをオブジェクトに明示的にフォーカスする。
最強対象は自己監督型視覚変換器の自己注意マップで, SAMの促進に利用した。
最後に、SAMからの後処理セグメントは、標準的なインスタンスセグメンテーションシステムをトレーニングするために擬似アノテーションとして使用される。
提案手法はCOCO, LVIS, ADE20kデータセットに対して強力な一般化能力を示し, 最先端技術と比較して81.6%の精度向上を実現している。
ソースコードは、https://github.com/chwilms/SOSで入手できる。
関連論文リスト
- Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts [14.631774737903015]
既存の知覚モデルは大量のラベル付きデータから学習することで大きな成功を収めるが、それでもオープンワールドのシナリオに苦戦している。
我々は、オブジェクトカテゴリを入力として含まない未確認オブジェクトを検出する、オープンな対象検出(textiti.e.)を提案する。
提案手法は,オブジェクト検出タスクにおける従来のオープンエンドメソッドを超越し,追加のインスタンスセグメンテーションマスクを提供できることを示す。
論文 参考訳(メタデータ) (2024-10-08T12:15:08Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。
実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-08T09:09:37Z) - WPS-SAM: Towards Weakly-Supervised Part Segmentation with Foundation Models [43.27699553774037]
Weakly-supervised Part (WPS) と WPS-SAM という手法を提案する。
WPS-SAMは画像から直接プロンプトトークンを抽出し、部分領域のピクセルレベルのセグメンテーションを実行するために設計されたエンドツーエンドフレームワークである。
実験により、事前訓練された基礎モデルに埋め込まれた豊富な知識を利用することで、WPS-SAMはピクセルレベルの強いアノテーションで訓練された他のセグメンテーションモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-07-14T09:31:21Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.42565443181017]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - ISAR: A Benchmark for Single- and Few-Shot Object Instance Segmentation
and Re-Identification [24.709695178222862]
単発および少数発のオブジェクト識別のためのベンチマークおよびベースライン手法であるISARを提案する。
地層構造意味アノテーションを用いた半合成的ビデオシーケンスデータセットを提供する。
我々のベンチマークは、マルチオブジェクト追跡、ビデオオブジェクト、再識別の新たな研究動向と一致している。
論文 参考訳(メタデータ) (2023-11-05T18:51:33Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。