論文の概要: PerSense: Personalized Instance Segmentation in Dense Images
- arxiv url: http://arxiv.org/abs/2405.13518v1
- Date: Wed, 22 May 2024 10:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-25 00:34:02.885886
- Title: PerSense: Personalized Instance Segmentation in Dense Images
- Title(参考訳): PerSense:Dense Imagesにおけるパーソナライズされたインスタンスセグメンテーション
- Authors: Muhammad Ibraheem Siddiqui, Muhammad Umer Sheikh, Hassan Abid, Muhammad Haris Khan,
- Abstract要約: 我々は、高密度画像におけるパーソナライズされたインスタンスセグメンテーションに対処するための、エンドツーエンド、トレーニング不要、モデルに依存しないフレームワークPerSenseを提案する。
本稿では,高密度画像におけるパーソナライズされたインスタンスセグメンテーション専用のデータセットPerSense-Dを紹介する。
我々はPerSense-D上の高密度画像におけるパーソナライズされたインスタンスセグメンテーションのタスクに対するPerSenseの有効性とSOTAとの比較を検証した。
- 参考スコア(独自算出の注目度): 7.002657345547741
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Leveraging large-scale pre-training, vision foundational models showcase notable performance benefits. While recent years have witnessed significant advancements in segmentation algorithms, existing models still face challenges to automatically segment personalized instances in dense and crowded scenarios. The primary factor behind this limitation stems from bounding box-based detections, which are constrained by occlusions, background clutter, and object orientation, particularly when dealing with dense images. To this end, we propose PerSense, an end-to-end, training-free, and model-agnostic one-shot framework to address the personalized instance segmentation in dense images. Towards developing this framework, we make following core contributions. (a) We propose an Instance Detection Module (IDM) and leverage a Vision-Language Model, a grounding object detector, and a few-shot object counter (FSOC) to realize a new baseline. (b) To tackle false positives within candidate point prompts, we design Point Prompt Selection Module (PPSM). Both IDM and PPSM transform density maps from FSOC into personalized instance-level point prompts for segmentation and offer a seamless integration in our model-agnostic framework. (c) We introduce a feedback mechanism which enables PerSense to harness the full potential of FSOC by automating the exemplar selection process. (d) To promote algorithmic advances and effective tools for this relatively underexplored task, we introduce PerSense-D, a dataset exclusive to personalized instance segmentation in dense images. We validate the effectiveness of PerSense on the task of personalized instance segmentation in dense images on PerSense-D and comparison with SOTA. Additionally, our qualitative findings demonstrate the adaptability of our framework to images captured in-the-wild.
- Abstract(参考訳): 大規模な事前トレーニングを活用することで、ビジョン基盤モデルは、顕著なパフォーマンス上のメリットを示します。
近年、セグメンテーションアルゴリズムの大幅な進歩が見られたが、既存のモデルは、密集した混雑したシナリオでパーソナライズされたインスタンスを自動的にセグメンテーションするという課題に直面している。
この制限の背後にある主な要因は、特に濃密な画像を扱う際に、閉塞、背景のぼかし、物体の向きに制約されるボックスベースの検出に起因している。
この目的のために、高密度画像におけるパーソナライズされたインスタンスセグメンテーションに対処するための、エンドツーエンド、トレーニング不要、モデルに依存しないワンショットフレームワークPerSenseを提案する。
このフレームワークの開発に向けて、私たちは下記のコアコントリビューションを行います。
(a) 検出モジュール(IDM)を提案し、新しいベースラインを実現するためにビジョンランゲージモデル、グラウンドオブジェクト検出器、および数ショットオブジェクトカウンタ(FSOC)を利用する。
b)候補点プロンプト内の偽陽性に対処するため,PPSM (Point Prompt Selection Module) を設計する。
IDMとPPSMはどちらも、FSOCからセグメンテーションのためのパーソナライズされたインスタンスレベルのポイントプロンプトに変換し、モデルに依存しないフレームワークにシームレスに統合します。
(c) 従来の選択プロセスの自動化により,PerSenseがFSOCの潜在能力を最大限に活用できるフィードバック機構を導入する。
(d) この比較的未探索なタスクのためのアルゴリズムの進歩と効果的なツールを促進するために、高密度画像のパーソナライズされたインスタンスセグメンテーション専用のデータセットPerSense-Dを導入する。
我々はPerSense-D上の高密度画像におけるパーソナライズされたインスタンスセグメンテーションのタスクに対するPerSenseの有効性とSOTAとの比較を検証した。
さらに,本研究の質的発見は,撮影対象の画像へのフレームワークの適応性を示すものである。
関連論文リスト
- Boosting Salient Object Detection with Knowledge Distillated from Large Foundation Models [7.898092154590899]
Salient Object Detectionは、シーン内の顕著な領域を特定し、セグメンテーションすることを目的としている。
従来のモデルは、正確なピクセルレベルの精度で手動でアノテートされた擬似ラベルに依存している。
本研究では,低コストで高精度なアノテーション手法を開発し,課題に対処する。
論文 参考訳(メタデータ) (2025-01-08T15:56:21Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - Retinal IPA: Iterative KeyPoints Alignment for Multimodal Retinal Imaging [11.70130626541926]
マルチモダリティ網膜画像間のマッチングと登録を強化するために,クロスモダリティ特徴を学習するための新しいフレームワークを提案する。
本モデルでは,従来の学習に基づく特徴検出と記述手法の成功を例に挙げる。
同じ画像の異なるオーグメンテーション間のセグメンテーション一貫性を強制することにより、自己指導的な方法で訓練される。
論文 参考訳(メタデータ) (2024-07-25T19:51:27Z) - Leveraging image captions for selective whole slide image annotation [0.37334049820361814]
本稿では,モデルトレーニングを最適化する特定の画像領域の同定とアノテーションについて述べる。
プロトタイプサンプリングは、価値あるトレーニング情報を持つアノテーション領域を特定する際に、ランダムサンプリングや多様性サンプリングよりも効果的である。
本結果より, アノテーション領域の同定において, プロトタイプサンプリングの方が, ランダムサンプリングや多様性サンプリングよりも有効であることが示唆された。
論文 参考訳(メタデータ) (2024-07-08T20:05:21Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Topological Data Analysis Guided Segment Anything Model Prompt
Optimization for Zero-Shot Segmentation in Biological Imaging [5.795215830149858]
我々は,Segment Anything Model (SAM) のプロンプト最適化を導くトポロジカルデータ解析を提案する。
以上の結果から,TDA最適化点雲は小型物体の発見に非常に適しており,計算複雑性を大幅に低減することがわかった。
論文 参考訳(メタデータ) (2023-06-30T05:00:38Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Sparse Instance Activation for Real-Time Instance Segmentation [72.23597664935684]
本稿では,リアルタイムインスタンスセグメンテーションのための概念的・効率的・完全畳み込み型フレームワークを提案する。
SparseInstは非常に高速な推論速度を持ち、COCOベンチマークで40 FPSと37.9 APを達成した。
論文 参考訳(メタデータ) (2022-03-24T03:15:39Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z) - Semantic Attention and Scale Complementary Network for Instance
Segmentation in Remote Sensing Images [54.08240004593062]
本稿では,セマンティックアテンション(SEA)モジュールとスケール補完マスクブランチ(SCMB)で構成される,エンドツーエンドのマルチカテゴリインスタンスセグメンテーションモデルを提案する。
SEAモジュールは、機能マップ上の興味あるインスタンスのアクティベーションを強化するために、追加の監督を備えた、単純な完全な畳み込みセマンティックセマンティックセマンティクスブランチを含んでいる。
SCMBは、元のシングルマスクブランチをトリデントマスクブランチに拡張し、異なるスケールで補完マスクの監視を導入する。
論文 参考訳(メタデータ) (2021-07-25T08:53:59Z) - Semi-Supervised Domain Adaptation via Adaptive and Progressive Feature
Alignment [32.77436219094282]
SSDASはラベル付きターゲットサンプルを、ラベル付きソースサンプルとラベルなしターゲットサンプルの間に適応的かつプログレッシブな特徴アライメントのためのアンカーとして採用している。
さらに、反復学習過程において、異種音源の特徴を高信頼目標特徴に置き換える。
広範な実験により、提案されたSSDASは、多くのベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2021-06-05T09:12:50Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z) - Learning from Scale-Invariant Examples for Domain Adaptation in Semantic
Segmentation [6.320141734801679]
本稿では,自己教師付きドメイン適応のためのセマンティックセグメンテーションモデルのスケール不変性を利用した新しいアプローチを提案する。
我々のアルゴリズムは、一般に、オブジェクトや物のサイズに関係なく、セマンティックなラベリングは変更すべきである、という合理的な仮定に基づいている。
この制約はターゲットドメインのイメージに反し、異なるスケールのパッチ間でラベルの転送に使用できることを示す。
論文 参考訳(メタデータ) (2020-07-28T19:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。