論文の概要: Training-free Object Counting with Prompts
- arxiv url: http://arxiv.org/abs/2307.00038v1
- Date: Fri, 30 Jun 2023 13:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 18:20:05.176696
- Title: Training-free Object Counting with Prompts
- Title(参考訳): プロンプトを用いたトレーニングフリーオブジェクトカウント
- Authors: Zenglin Shi, Ying Sun, Mengmi Zhang
- Abstract要約: 既存のアプローチは、各オブジェクトに対するポイントアノテーションを備えた広範なトレーニングデータに依存しています。
分割問題としてカウントタスクを扱う訓練不要なオブジェクトカウンタを提案する。
- 参考スコア(独自算出の注目度): 11.427802109472838
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper tackles the problem of object counting in images. Existing
approaches rely on extensive training data with point annotations for each
object, making data collection labor-intensive and time-consuming. To overcome
this, we propose a training-free object counter that treats the counting task
as a segmentation problem. Our approach leverages the Segment Anything Model
(SAM), known for its high-quality masks and zero-shot segmentation capability.
However, the vanilla mask generation method of SAM lacks class-specific
information in the masks, resulting in inferior counting accuracy. To overcome
this limitation, we introduce a prior-guided mask generation method that
incorporates three types of priors into the segmentation process, enhancing
efficiency and accuracy. Additionally, we tackle the issue of counting objects
specified through free-form text by proposing a two-stage approach that
combines reference object selection and prior-guided mask generation. Extensive
experiments on standard datasets demonstrate the competitive performance of our
training-free counter compared to learning-based approaches. This paper
presents a promising solution for counting objects in various scenarios without
the need for extensive data collection and model training. Code is available at
https://github.com/shizenglin/training-free-object-counter.
- Abstract(参考訳): 本稿では,画像中のオブジェクトのカウントの問題に取り組む。
既存のアプローチでは、各オブジェクトに対するポイントアノテーションを備えた広範なトレーニングデータに依存しているため、データ収集は労力と時間を要する。
そこで本研究では,カウントタスクをセグメンテーション問題として扱うトレーニングフリーオブジェクトカウンタを提案する。
我々のアプローチは、高品質なマスクとゼロショットセグメンテーション能力で知られるSAM(Segment Anything Model)を活用している。
しかし、SAMのバニラマスク生成法は、マスクのクラス固有の情報を欠いているため、カウント精度が劣る。
この制限を克服するために,3種類の先行をセグメンテーションプロセスに組み込んだマスク生成手法を導入し,効率と精度を向上させる。
さらに,参照対象選択と予め指示されたマスク生成を組み合わせた2段階のアプローチを提案することで,自由形式のテキストで指定されたオブジェクトをカウントする問題に取り組む。
標準データセットに関する広範な実験は、学習ベースのアプローチと比較して、トレーニングフリーカウンタの競争力を示すものです。
本稿では,広範囲なデータ収集とモデルトレーニングを必要とせず,様々なシナリオでオブジェクトを数える有望なソリューションを提案する。
コードはhttps://github.com/shizenglin/training-free-object-counterで入手できる。
関連論文リスト
- A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-15T12:05:44Z) - Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM [55.93697196726016]
本稿では,SEEM(Seegment-Everything-Everywhere Model)を用いた簡易かつ効果的な群集カウント手法を提案する。
密集した群集シーンにおけるSEEMの性能は,高密度領域の多くの人々が欠落していることが主な原因である。
提案手法は,群集カウントにおいて最高の教師なし性能を実現すると同時に,いくつかの教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-02-27T13:55:17Z) - Learning from Pseudo-labeled Segmentation for Multi-Class Object
Counting [35.652092907690694]
CAC(Class-Agnostic counting)は、様々な領域にまたがる多くの潜在的な応用がある。
目標は、いくつかの注釈付き例に基づいて、テスト中に任意のカテゴリのオブジェクトを数えることである。
擬似ラベルマスクを用いて学習したセグメンテーションモデルは、任意のマルチクラス画像に対して効果的に対象をローカライズできることを示す。
論文 参考訳(メタデータ) (2023-07-15T01:33:19Z) - Self-Supervised Interactive Object Segmentation Through a
Singulation-and-Grasping Approach [9.029861710944704]
本稿では,新しいオブジェクトと対話し,各オブジェクトのトレーニングラベルを収集するロボット学習手法を提案する。
Singulation-and-Grasping(SaG)ポリシは、エンドツーエンドの強化学習を通じてトレーニングされる。
本システムは,シミュレートされた散文シーンにおいて,70%の歌唱成功率を達成する。
論文 参考訳(メタデータ) (2022-07-19T15:01:36Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Scaling up instance annotation via label propagation [69.8001043244044]
本稿では,オブジェクトセグメンテーションマスクを用いた大規模データセット構築のための高効率アノテーション手法を提案する。
セグメンテーションモデルによるマスク予測に階層的クラスタリングを用いることにより,これらの類似性を生かした。
総アノテーション時間はたった290時間である100万個のオブジェクトセグメンテーションマスクが得られた。
論文 参考訳(メタデータ) (2021-10-05T18:29:34Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z) - Multi-task deep learning for image segmentation using recursive
approximation tasks [5.735162284272276]
セグメンテーションのためのディープニューラルネットワークは通常、手作業で作成するのに高価な大量のピクセルレベルのラベルを必要とする。
本研究では,この制約を緩和するマルチタスク学習手法を提案する。
ネットワークは、非常に少量の精度で区切られた画像と大量の粗いラベルで訓練されている。
論文 参考訳(メタデータ) (2020-05-26T21:35:26Z) - Revisiting Sequence-to-Sequence Video Object Segmentation with
Multi-Task Loss and Skip-Memory [4.343892430915579]
ビデオオブジェクト(VOS)は、視覚領域の活発な研究領域である。
現行のアプローチでは、特にオブジェクトが小さく、あるいは一時的に隠された場合、長いシーケンスでオブジェクトを失う。
我々は,エンコーダ・デコーダアーキテクチャとメモリモジュールを組み合わせたシーケンス・ツー・シーケンス・アプローチを構築し,シーケンシャルデータを活用する。
論文 参考訳(メタデータ) (2020-04-25T15:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。