論文の概要: PerSense: Personalized Instance Segmentation in Dense Images
- arxiv url: http://arxiv.org/abs/2405.13518v1
- Date: Wed, 22 May 2024 10:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 00:34:02.885886
- Title: PerSense: Personalized Instance Segmentation in Dense Images
- Title(参考訳): PerSense:Dense Imagesにおけるパーソナライズされたインスタンスセグメンテーション
- Authors: Muhammad Ibraheem Siddiqui, Muhammad Umer Sheikh, Hassan Abid, Muhammad Haris Khan,
- Abstract要約: 我々は、高密度画像におけるパーソナライズされたインスタンスセグメンテーションに対処するための、エンドツーエンド、トレーニング不要、モデルに依存しないフレームワークPerSenseを提案する。
本稿では,高密度画像におけるパーソナライズされたインスタンスセグメンテーション専用のデータセットPerSense-Dを紹介する。
我々はPerSense-D上の高密度画像におけるパーソナライズされたインスタンスセグメンテーションのタスクに対するPerSenseの有効性とSOTAとの比較を検証した。
- 参考スコア(独自算出の注目度): 7.002657345547741
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Leveraging large-scale pre-training, vision foundational models showcase notable performance benefits. While recent years have witnessed significant advancements in segmentation algorithms, existing models still face challenges to automatically segment personalized instances in dense and crowded scenarios. The primary factor behind this limitation stems from bounding box-based detections, which are constrained by occlusions, background clutter, and object orientation, particularly when dealing with dense images. To this end, we propose PerSense, an end-to-end, training-free, and model-agnostic one-shot framework to address the personalized instance segmentation in dense images. Towards developing this framework, we make following core contributions. (a) We propose an Instance Detection Module (IDM) and leverage a Vision-Language Model, a grounding object detector, and a few-shot object counter (FSOC) to realize a new baseline. (b) To tackle false positives within candidate point prompts, we design Point Prompt Selection Module (PPSM). Both IDM and PPSM transform density maps from FSOC into personalized instance-level point prompts for segmentation and offer a seamless integration in our model-agnostic framework. (c) We introduce a feedback mechanism which enables PerSense to harness the full potential of FSOC by automating the exemplar selection process. (d) To promote algorithmic advances and effective tools for this relatively underexplored task, we introduce PerSense-D, a dataset exclusive to personalized instance segmentation in dense images. We validate the effectiveness of PerSense on the task of personalized instance segmentation in dense images on PerSense-D and comparison with SOTA. Additionally, our qualitative findings demonstrate the adaptability of our framework to images captured in-the-wild.
- Abstract(参考訳): 大規模な事前トレーニングを活用することで、ビジョン基盤モデルは、顕著なパフォーマンス上のメリットを示します。
近年、セグメンテーションアルゴリズムの大幅な進歩が見られたが、既存のモデルは、密集した混雑したシナリオでパーソナライズされたインスタンスを自動的にセグメンテーションするという課題に直面している。
この制限の背後にある主な要因は、特に濃密な画像を扱う際に、閉塞、背景のぼかし、物体の向きに制約されるボックスベースの検出に起因している。
この目的のために、高密度画像におけるパーソナライズされたインスタンスセグメンテーションに対処するための、エンドツーエンド、トレーニング不要、モデルに依存しないワンショットフレームワークPerSenseを提案する。
このフレームワークの開発に向けて、私たちは下記のコアコントリビューションを行います。
(a) 検出モジュール(IDM)を提案し、新しいベースラインを実現するためにビジョンランゲージモデル、グラウンドオブジェクト検出器、および数ショットオブジェクトカウンタ(FSOC)を利用する。
b)候補点プロンプト内の偽陽性に対処するため,PPSM (Point Prompt Selection Module) を設計する。
IDMとPPSMはどちらも、FSOCからセグメンテーションのためのパーソナライズされたインスタンスレベルのポイントプロンプトに変換し、モデルに依存しないフレームワークにシームレスに統合します。
(c) 従来の選択プロセスの自動化により,PerSenseがFSOCの潜在能力を最大限に活用できるフィードバック機構を導入する。
(d) この比較的未探索なタスクのためのアルゴリズムの進歩と効果的なツールを促進するために、高密度画像のパーソナライズされたインスタンスセグメンテーション専用のデータセットPerSense-Dを導入する。
我々はPerSense-D上の高密度画像におけるパーソナライズされたインスタンスセグメンテーションのタスクに対するPerSenseの有効性とSOTAとの比較を検証した。
さらに,本研究の質的発見は,撮影対象の画像へのフレームワークの適応性を示すものである。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - Leveraging image captions for selective whole slide image annotation [0.37334049820361814]
本稿では,モデルトレーニングを最適化する特定の画像領域の同定とアノテーションについて述べる。
プロトタイプサンプリングは、価値あるトレーニング情報を持つアノテーション領域を特定する際に、ランダムサンプリングや多様性サンプリングよりも効果的である。
本結果より, アノテーション領域の同定において, プロトタイプサンプリングの方が, ランダムサンプリングや多様性サンプリングよりも有効であることが示唆された。
論文 参考訳(メタデータ) (2024-07-08T20:05:21Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Topological Data Analysis Guided Segment Anything Model Prompt
Optimization for Zero-Shot Segmentation in Biological Imaging [5.795215830149858]
我々は,Segment Anything Model (SAM) のプロンプト最適化を導くトポロジカルデータ解析を提案する。
以上の結果から,TDA最適化点雲は小型物体の発見に非常に適しており,計算複雑性を大幅に低減することがわかった。
論文 参考訳(メタデータ) (2023-06-30T05:00:38Z) - Sparse Instance Activation for Real-Time Instance Segmentation [72.23597664935684]
本稿では,リアルタイムインスタンスセグメンテーションのための概念的・効率的・完全畳み込み型フレームワークを提案する。
SparseInstは非常に高速な推論速度を持ち、COCOベンチマークで40 FPSと37.9 APを達成した。
論文 参考訳(メタデータ) (2022-03-24T03:15:39Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z) - Semantic Attention and Scale Complementary Network for Instance
Segmentation in Remote Sensing Images [54.08240004593062]
本稿では,セマンティックアテンション(SEA)モジュールとスケール補完マスクブランチ(SCMB)で構成される,エンドツーエンドのマルチカテゴリインスタンスセグメンテーションモデルを提案する。
SEAモジュールは、機能マップ上の興味あるインスタンスのアクティベーションを強化するために、追加の監督を備えた、単純な完全な畳み込みセマンティックセマンティックセマンティクスブランチを含んでいる。
SCMBは、元のシングルマスクブランチをトリデントマスクブランチに拡張し、異なるスケールで補完マスクの監視を導入する。
論文 参考訳(メタデータ) (2021-07-25T08:53:59Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。