Fugu-MT 論文翻訳(概要): Training-free Object Counting with Prompts

論文の概要: Training-free Object Counting with Prompts

arxiv url: http://arxiv.org/abs/2307.00038v2
Date: Wed, 30 Aug 2023 03:04:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-01 19:38:32.970440
Title: Training-free Object Counting with Prompts
Title（参考訳）: プロンプトを用いたトレーニングフリーオブジェクトカウント
Authors: Zenglin Shi, Ying Sun, Mengmi Zhang
Abstract要約: 既存のアプローチは、各オブジェクトに対するポイントアノテーションを備えた広範なトレーニングデータに依存しています。分割問題としてカウントタスクを扱う訓練不要なオブジェクトカウンタを提案する。
参考スコア（独自算出の注目度）: 12.358565655046977
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper tackles the problem of object counting in images. Existing approaches rely on extensive training data with point annotations for each object, making data collection labor-intensive and time-consuming. To overcome this, we propose a training-free object counter that treats the counting task as a segmentation problem. Our approach leverages the Segment Anything Model (SAM), known for its high-quality masks and zero-shot segmentation capability. However, the vanilla mask generation method of SAM lacks class-specific information in the masks, resulting in inferior counting accuracy. To overcome this limitation, we introduce a prior-guided mask generation method that incorporates three types of priors into the segmentation process, enhancing efficiency and accuracy. Additionally, we tackle the issue of counting objects specified through text by proposing a two-stage approach that combines reference object selection and prior-guided mask generation. Extensive experiments on standard datasets demonstrate the competitive performance of our training-free counter compared to learning-based approaches. This paper presents a promising solution for counting objects in various scenarios without the need for extensive data collection and counting-specific training. Code is available at \url{https://github.com/shizenglin/training-free-object-counter}
Abstract（参考訳）: 本稿では,画像中のオブジェクトのカウントの問題に取り組む。既存のアプローチでは、各オブジェクトに対するポイントアノテーションを備えた広範なトレーニングデータに依存しているため、データ収集は労力と時間を要する。そこで本研究では,カウントタスクをセグメンテーション問題として扱うトレーニングフリーオブジェクトカウンタを提案する。我々のアプローチは、高品質なマスクとゼロショットセグメンテーション能力で知られるSAM(Segment Anything Model)を活用している。しかし、SAMのバニラマスク生成法は、マスクのクラス固有の情報を欠いているため、カウント精度が劣る。この制限を克服するために,3種類の先行をセグメンテーションプロセスに組み込んだマスク生成手法を導入し,効率と精度を向上させる。さらに,参照対象選択と予め指示されたマスク生成を組み合わせた2段階のアプローチを提案することで,テキストで指定されたオブジェクトをカウントする問題に取り組む。標準データセットに関する広範な実験は、学習ベースのアプローチと比較して、トレーニングフリーカウンタの競争力を示すものです。本稿では,広範なデータ収集やカウント専用トレーニングを必要とせず,さまざまなシナリオでオブジェクトをカウントする有望なソリューションを提案する。コードは \url{https://github.com/shizenglin/training-free-object-counter} で入手できる。

関連論文リスト

Segment Concealed Objects with Incomplete Supervision [63.637733655439334]
不完全なスーパービジョン・コンセサイテッド・オブジェクト(ISCOS)は、周囲の環境にシームレスにブレンドするオブジェクトを分割する。このタスクは、不完全な注釈付きトレーニングデータによって提供される限られた監督のため、非常に難しいままである。本稿では,これらの課題に対処するためのISCOSの統一手法について紹介する。
論文参考訳（メタデータ） (2025-06-10T16:25:15Z)
InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition [19.74617806521803]
InstructSAMは、命令駆動オブジェクト認識のためのトレーニング不要のフレームワークである。我々は、地球観測のための最初のインストラクトCDSベンチマークであるEarthInstructを紹介する。
論文参考訳（メタデータ） (2025-05-21T17:59:56Z)
Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文参考訳（メタデータ） (2024-12-02T13:17:41Z)
A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-03-15T12:05:44Z)
Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM [55.93697196726016]
本稿では,SEEM(Seegment-Everything-Everywhere Model)を用いた簡易かつ効果的な群集カウント手法を提案する。密集した群集シーンにおけるSEEMの性能は,高密度領域の多くの人々が欠落していることが主な原因である。提案手法は,群集カウントにおいて最高の教師なし性能を実現すると同時に,いくつかの教師付き手法に匹敵する性能を示す。
論文参考訳（メタデータ） (2024-02-27T13:55:17Z)
Learning from Pseudo-labeled Segmentation for Multi-Class Object Counting [35.652092907690694]
CAC(Class-Agnostic counting)は、様々な領域にまたがる多くの潜在的な応用がある。目標は、いくつかの注釈付き例に基づいて、テスト中に任意のカテゴリのオブジェクトを数えることである。擬似ラベルマスクを用いて学習したセグメンテーションモデルは、任意のマルチクラス画像に対して効果的に対象をローカライズできることを示す。
論文参考訳（メタデータ） (2023-07-15T01:33:19Z)
Self-Supervised Interactive Object Segmentation Through a Singulation-and-Grasping Approach [9.029861710944704]
本稿では,新しいオブジェクトと対話し,各オブジェクトのトレーニングラベルを収集するロボット学習手法を提案する。 Singulation-and-Grasping(SaG)ポリシは、エンドツーエンドの強化学習を通じてトレーニングされる。本システムは,シミュレートされた散文シーンにおいて,70%の歌唱成功率を達成する。
論文参考訳（メタデータ） (2022-07-19T15:01:36Z)
Discovering Object Masks with Transformers for Unsupervised Semantic Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文参考訳（メタデータ） (2022-06-13T17:59:43Z)
Scaling up instance annotation via label propagation [69.8001043244044]
本稿では,オブジェクトセグメンテーションマスクを用いた大規模データセット構築のための高効率アノテーション手法を提案する。セグメンテーションモデルによるマスク予測に階層的クラスタリングを用いることにより,これらの類似性を生かした。総アノテーション時間はたった290時間である100万個のオブジェクトセグメンテーションマスクが得られた。
論文参考訳（メタデータ） (2021-10-05T18:29:34Z)
Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文参考訳（メタデータ） (2021-01-06T18:56:24Z)
A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文参考訳（メタデータ） (2020-07-03T18:23:39Z)
Multi-task deep learning for image segmentation using recursive approximation tasks [5.735162284272276]
セグメンテーションのためのディープニューラルネットワークは通常、手作業で作成するのに高価な大量のピクセルレベルのラベルを必要とする。本研究では,この制約を緩和するマルチタスク学習手法を提案する。ネットワークは、非常に少量の精度で区切られた画像と大量の粗いラベルで訓練されている。
論文参考訳（メタデータ） (2020-05-26T21:35:26Z)
Revisiting Sequence-to-Sequence Video Object Segmentation with Multi-Task Loss and Skip-Memory [4.343892430915579]
ビデオオブジェクト(VOS)は、視覚領域の活発な研究領域である。現行のアプローチでは、特にオブジェクトが小さく、あるいは一時的に隠された場合、長いシーケンスでオブジェクトを失う。我々は,エンコーダ・デコーダアーキテクチャとメモリモジュールを組み合わせたシーケンス・ツー・シーケンス・アプローチを構築し,シーケンシャルデータを活用する。
論文参考訳（メタデータ） (2020-04-25T15:38:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。