論文の概要: Point, Segment and Count: A Generalized Framework for Object Counting
- arxiv url: http://arxiv.org/abs/2311.12386v3
- Date: Wed, 27 Mar 2024 15:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 22:33:12.730561
- Title: Point, Segment and Count: A Generalized Framework for Object Counting
- Title(参考訳): Point, Segment and Count: オブジェクトカウントのための汎用フレームワーク
- Authors: Zhizhong Huang, Mingliang Dai, Yi Zhang, Junping Zhang, Hongming Shan,
- Abstract要約: クラスに依存しないオブジェクトカウントは、例ボックスやクラス名に関して、イメージ内のすべてのオブジェクトをカウントすることを目的としている。
本稿では,検出に基づく少数ショットとゼロショットの両方のオブジェクトカウントのための一般化されたフレームワークを提案する。
PseCoは、少数ショット/ゼロショットオブジェクトカウント/検出の両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 40.192374437785155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class-agnostic object counting aims to count all objects in an image with respect to example boxes or class names, \emph{a.k.a} few-shot and zero-shot counting. In this paper, we propose a generalized framework for both few-shot and zero-shot object counting based on detection. Our framework combines the superior advantages of two foundation models without compromising their zero-shot capability: (\textbf{i}) SAM to segment all possible objects as mask proposals, and (\textbf{ii}) CLIP to classify proposals to obtain accurate object counts. However, this strategy meets the obstacles of efficiency overhead and the small crowded objects that cannot be localized and distinguished. To address these issues, our framework, termed PseCo, follows three steps: point, segment, and count. Specifically, we first propose a class-agnostic object localization to provide accurate but least point prompts for SAM, which consequently not only reduces computation costs but also avoids missing small objects. Furthermore, we propose a generalized object classification that leverages CLIP image/text embeddings as the classifier, following a hierarchical knowledge distillation to obtain discriminative classifications among hierarchical mask proposals. Extensive experimental results on FSC-147, COCO, and LVIS demonstrate that PseCo achieves state-of-the-art performance in both few-shot/zero-shot object counting/detection. Code: https://github.com/Hzzone/PseCo
- Abstract(参考訳): クラス非依存のオブジェクトカウントは、例ボックスやクラス名、 \emph{a.k.a} 少数ショットとゼロショットカウントに関して、イメージ内のすべてのオブジェクトをカウントすることを目的としている。
本稿では,検出に基づく少数ショットとゼロショットの両方のオブジェクトカウントのための一般化されたフレームワークを提案する。
我々のフレームワークは、ゼロショット能力を損なうことなく、2つの基盤モデルの優れた利点を組み合わせている。 (\textbf{i}) SAM はすべての可能なオブジェクトをマスクの提案としてセグメント化し、 (\textbf{ii}) CLIP は正確なオブジェクト数を得るための提案を分類する。
しかし、この戦略は、効率のオーバーヘッドと、局所化や区別ができない小さな混み合ったオブジェクトの障害を満たす。
これらの問題に対処するため、私たちのフレームワークはPseCoと呼ばれ、ポイント、セグメント、カウントの3つのステップに従っています。
具体的には、SAMの精度が低いが最小点のプロンプトを提供するために、クラスに依存しないオブジェクトローカライゼーションを提案する。
さらに,CLIP画像/テキスト埋め込みを分類器として活用する汎用オブジェクト分類を提案し,階層的知識蒸留に続き,階層的マスク提案の識別的分類を得る。
FSC-147, COCO, LVISの広範囲な実験結果から, PseCoは小ショット・ゼロショット・オブジェクトの計数・検出において最先端の性能を発揮することが示された。
コード:https://github.com/Hzzone/PseCo
関連論文リスト
- What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。
トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。
3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文 参考訳(メタデータ) (2024-04-01T17:38:25Z) - Zero-Shot Object Counting with Language-Vision Models [50.1159882903028]
クラスに依存しないオブジェクトカウントは、テスト時に任意のクラスのオブジェクトインスタンスをカウントすることを目的としている。
現在の手法では、新しいカテゴリではしばしば利用できない入力として、人間に注釈をつけた模範を必要とする。
テスト期間中にクラス名のみを利用できる新しい設定であるゼロショットオブジェクトカウント(ZSC)を提案する。
論文 参考訳(メタデータ) (2023-09-22T14:48:42Z) - Learning from Pseudo-labeled Segmentation for Multi-Class Object
Counting [35.652092907690694]
CAC(Class-Agnostic counting)は、様々な領域にまたがる多くの潜在的な応用がある。
目標は、いくつかの注釈付き例に基づいて、テスト中に任意のカテゴリのオブジェクトを数えることである。
擬似ラベルマスクを用いて学習したセグメンテーションモデルは、任意のマルチクラス画像に対して効果的に対象をローカライズできることを示す。
論文 参考訳(メタデータ) (2023-07-15T01:33:19Z) - Disambiguation of One-Shot Visual Classification Tasks: A Simplex-Based
Approach [8.436437583394998]
本稿では,複数の物体の存在を検出するための戦略を提案する。
この戦略は、高次元空間における単純体の角を識別することに基づいている。
提案手法は,極端設定における精度をわずかながら統計的に向上させる能力を示す。
論文 参考訳(メタデータ) (2023-01-16T11:37:05Z) - Few-shot Object Counting and Detection [25.61294147822642]
我々は、ターゲットオブジェクトクラスのいくつかの例のバウンディングボックスを考慮に入れ、ターゲットクラスのすべてのオブジェクトをカウントし、検出する新しいタスクに取り組む。
このタスクは、数ショットのオブジェクトカウントと同じ監督を共有しますが、オブジェクトのバウンディングボックスと総オブジェクトカウントを出力します。
本稿では,新しい2段階トレーニング戦略と,新しい不確実性に留意した小ショットオブジェクト検出器であるCounting-DETRを紹介する。
論文 参考訳(メタデータ) (2022-07-22T10:09:18Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Integrative Few-Shot Learning for Classification and Segmentation [37.50821005917126]
少数ショット分類とセグメンテーション(FS-CS)の統合タスクについて紹介する。
FS-CSは、ターゲットクラスがいくつかの例で与えられるとき、クエリイメージでターゲットオブジェクトを分類し、セグメントすることを目的としている。
本稿では,FS-CSのための統合的数ショット学習フレームワークを提案し,学習者がクラスワイドな前景マップを構築するように訓練する。
論文 参考訳(メタデータ) (2022-03-29T16:14:40Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Dilated-Scale-Aware Attention ConvNet For Multi-Class Object Counting [18.733301622920102]
多クラスオブジェクトカウントは、オブジェクトカウントタスクの適用範囲を広げる。
マルチターゲット検出タスクは、いくつかのシナリオでマルチクラスオブジェクトカウントを実現することができる。
ポイントレベルのアノテーションに基づく簡便かつ効率的なカウントネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T08:38:28Z) - Corner Proposal Network for Anchor-free, Two-stage Object Detection [174.59360147041673]
オブジェクト検出の目標は、画像内のオブジェクトのクラスと位置を決定することである。
本稿では,多数のオブジェクト提案を抽出する新しいアンカーフリー2段階フレームワークを提案する。
この2つの段階が,リコールと精度の向上に有効な解であることを示す。
論文 参考訳(メタデータ) (2020-07-27T19:04:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。