論文の概要: Crowd-SAM: SAM as a Smart Annotator for Object Detection in Crowded Scenes
- arxiv url: http://arxiv.org/abs/2407.11464v2
- Date: Fri, 19 Jul 2024 01:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 12:00:08.689402
- Title: Crowd-SAM: SAM as a Smart Annotator for Object Detection in Crowded Scenes
- Title(参考訳): Crowd-SAM: クラウドシーンにおけるオブジェクト検出のためのスマートアノテーションとしてのSAM
- Authors: Zhi Cai, Yingjie Gao, Yaoyan Zheng, Nan Zhou, Di Huang,
- Abstract要約: Crowd-SAMは、混み合ったシーンでSAMのパフォーマンスを高めるために設計されたフレームワークである。
混み合ったシーンにおけるマスク選択と精度を高めるために,効率的なプロンプトサンプリング (EPS) とPWD-Net (Part-whole discrimination network) を導入する。
Crowd-SAMは、CrowdHumanやCityPersonsなどいくつかのベンチマークにおいて、最先端のSOTA(State-of-the-art)と競合する。
- 参考スコア(独自算出の注目度): 18.244508068200236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In computer vision, object detection is an important task that finds its application in many scenarios. However, obtaining extensive labels can be challenging, especially in crowded scenes. Recently, the Segment Anything Model (SAM) has been proposed as a powerful zero-shot segmenter, offering a novel approach to instance segmentation tasks. However, the accuracy and efficiency of SAM and its variants are often compromised when handling objects in crowded and occluded scenes. In this paper, we introduce Crowd-SAM, a SAM-based framework designed to enhance SAM's performance in crowded and occluded scenes with the cost of few learnable parameters and minimal labeled images. We introduce an efficient prompt sampler (EPS) and a part-whole discrimination network (PWD-Net), enhancing mask selection and accuracy in crowded scenes. Despite its simplicity, Crowd-SAM rivals state-of-the-art (SOTA) fully-supervised object detection methods on several benchmarks including CrowdHuman and CityPersons. Our code is available at https://github.com/FelixCaae/CrowdSAM.
- Abstract(参考訳): コンピュータビジョンでは、オブジェクト検出は多くのシナリオでその応用を見つける重要なタスクである。
しかし、特に混み合ったシーンでは、広範囲なラベルを取得することは困難である。
最近、Segment Anything Model (SAM) は強力なゼロショットセグメンタとして提案され、インスタンスセグメンテーションタスクに新しいアプローチを提供している。
しかし、SAMとそのバリエーションの精度と効率は、混み合ったシーンでオブジェクトを扱うときにしばしば損なわれる。
本稿では,学習可能なパラメータが少なく,ラベル付き画像が最小限のコストで,混み合ったシーンでSAMのパフォーマンスを向上させるために設計されたSAMベースのフレームワークであるCrowd-SAMを紹介する。
本稿では,高効率なプロンプトサンプリング(EPS)とPWD-Net(PWD-Net)を導入し,混み合ったシーンにおけるマスクの選択と精度を向上させる。
その単純さにもかかわらず、Crowd-SAMはCrowdHumanやCityPersonsといったいくつかのベンチマークで、最先端のSOTA(State-of-the-art)と競合する。
私たちのコードはhttps://github.com/FelixCaae/CrowdSAMで公開されています。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。
実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-08T09:09:37Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in
Videos by Prompt Denoising [37.216493829454706]
ビデオ中のオブジェクトの追跡とセグメンテーションにセグメンション・任意のモデルを適用する可能性について検討する。
具体的には、次のフレームのプロンプトとして、前フレーム内の各オブジェクトのマスクのバウンディングボックスを反復的に伝播する。
そこで本研究では,SAMの位置と大きさの変動に対する認知能力を高めるために,マルチプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:52:59Z) - PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation [19.65118388712439]
本稿では,新しいプロンプト駆動型アダプタであるPrompt Adapter Segment Anything Model(PA-SAM)を紹介する。
PA-SAMはプロンプトアダプタを専用にトレーニングすることで、画像から詳細な情報を抽出し、スパースレベルとディーププロンプトレベルの両方でマスクデコーダ機能を最適化する。
実験の結果,PA-SAMは他のSAM法よりも高品質,ゼロショット,オープンセットのセグメンテーションで優れていた。
論文 参考訳(メタデータ) (2024-01-23T19:20:22Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - On the Robustness of Segment Anything [46.669794757467166]
我々は, SAMの試験時間ロバスト性について, 敵のシナリオと共通の腐敗下で検討することを目的としている。
SAMは、ぼやけた汚職を除いて、様々な汚職に対して顕著な堅牢性を示す。
論文 参考訳(メタデータ) (2023-05-25T16:28:30Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z) - Can SAM Count Anything? An Empirical Study on SAM Counting [35.42720382193184]
本研究は,Segment Anything Model (SAM) を用いて,オブジェクトを数える際の課題について検討する。
SAMのパフォーマンスは、特に小さくて混み合ったオブジェクトに対して、さらに微調整をすることなく満足できないことが分かりました。
論文 参考訳(メタデータ) (2023-04-21T08:59:48Z) - SAM Fails to Segment Anything? -- SAM-Adapter: Adapting SAM in
Underperformed Scenes: Camouflage, Shadow, Medical Image Segmentation, and
More [13.047310918166762]
ドメイン固有の情報や視覚的プロンプトを,単純で効果的なアダプタを用いてセグメント化ネットワークに組み込んだtextbfSAM-Adapterを提案する。
タスク固有のネットワークモデルよりも優れていて、テストしたタスクで最先端のパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-18T17:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。