論文の概要: CountEx: Fine-Grained Counting via Exemplars and Exclusion
- arxiv url: http://arxiv.org/abs/2602.19432v1
- Date: Mon, 23 Feb 2026 02:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.641454
- Title: CountEx: Fine-Grained Counting via Exemplars and Exclusion
- Title(参考訳): CountEx: Exemplars と Exclusion によるファイングラインドカウント
- Authors: Yifeng Huang, Gia Khanh Nguyen, Minh Hoai,
- Abstract要約: 本稿では,識別的視覚的数え上げフレームワークであるCountExについて述べる。
既存のプロンプトベースのメソッドの重要な制限 – 視覚的に類似した障害を明示的に排除できない – に対処するように設計されている。
CountExは、既知のカテゴリと新しいカテゴリの両方からオブジェクトをカウントする最先端のメソッドよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 21.90583276089241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents CountEx, a discriminative visual counting framework designed to address a key limitation of existing prompt-based methods: the inability to explicitly exclude visually similar distractors. While current approaches allow users to specify what to count via inclusion prompts, they often struggle in cluttered scenes with confusable object categories, leading to ambiguity and overcounting. CountEx enables users to express both inclusion and exclusion intent, specifying what to count and what to ignore, through multimodal prompts including natural language descriptions and optional visual exemplars. At the core of CountEx is a novel Discriminative Query Refinement module, which jointly reasons over inclusion and exclusion cues by first identifying shared visual features, then isolating exclusion-specific patterns, and finally applying selective suppression to refine the counting query. To support systematic evaluation of fine-grained counting methods, we introduce CoCount, a benchmark comprising 1,780 videos and 10,086 annotated frames across 97 category pairs. Experiments show that CountEx achieves substantial improvements over state-of-the-art methods for counting objects from both known and novel categories. The data and code are available at https://github.com/bbvisual/CountEx.
- Abstract(参考訳): 本稿では,既存のプロンプトベースの手法の重要な制限に対処する識別的視覚カウントフレームワークであるCountExについて述べる。
現在のアプローチでは、ユーザーはインクルージョンプロンプトによって何を数えるかを指定できるが、混乱したオブジェクトカテゴリで散らばったシーンに苦しむことが多く、曖昧さとオーバーカウントに繋がる。
CountExを使用することで、ユーザは、自然言語記述やオプションの視覚的例を含むマルチモーダルプロンプトを通じて、数えるべきものや無視すべきものを指定することで、インクルージョンと除外インテントの両方を表現できる。
このモジュールは、まず共有された視覚的特徴を識別し、次に排他的なパターンを分離し、最後に選択的な抑制を適用して、カウントクエリを洗練させる。
粒度計数手法の体系的評価を支援するために,97のカテゴリ対に1,780の動画と10,086の注釈付きフレームからなるベンチマークCoCountを導入する。
実験によると、CountExは、既知のカテゴリと新しいカテゴリの両方からオブジェクトをカウントする最先端の手法よりも大幅に改善されている。
データとコードはhttps://github.com/bbvisual/CountExで入手できる。
関連論文リスト
- Beyond Open Vocabulary: Multimodal Prompting for Object Detection in Remote Sensing Images [52.7196029918473]
リモートセンシングにおけるオープンボキャブラリオブジェクト検出は、テキストのみに依存してターゲットカテゴリを指定する。
実際には、タスクやアプリケーション固有のカテゴリセマンティクスによって、リモートセンシングのシナリオでは、この仮定は分解されることが多い。
テキストのみのプロンプト以外のカテゴリ仕様を再構成するマルチモーダルなオープン語彙検出フレームワークRS-MPODを提案する。
論文 参考訳(メタデータ) (2026-02-02T11:03:01Z) - CountGD++: Generalized Prompting for Open-World Counting [54.61576076312857]
対象オブジェクトの指定方法を拡張する新しい機能を導入します。
具体的には、テキストや視覚的な例でカウントすべきでないことを可能とするために、プロンプトを拡張します。
また、推論における視覚例のアノテーションを自動化する擬似例の概念も導入する。
論文 参考訳(メタデータ) (2025-12-29T10:23:22Z) - Expanding Zero-Shot Object Counting with Rich Prompts [34.63381285520037]
RichCountは、テキストエンコーディングを強化し、画像内のオブジェクトとモデルの関連性を強化するトレーニング戦略である。
RichCountはゼロショットカウントにおける最先端のパフォーマンスを達成し、オープンワールドシナリオにおける見えないカテゴリへの一般化を著しく強化する。
論文 参考訳(メタデータ) (2025-05-21T11:38:23Z) - CountGD: Multi-Modal Open-World Counting [54.88804890463491]
本稿では,画像中のオープン語彙オブジェクトの数値化の一般化と精度の向上を目的とする。
本稿では,最初のオープンワールドカウントモデルであるCountGDを紹介した。
論文 参考訳(メタデータ) (2024-07-05T16:20:48Z) - OmniCount: Multi-label Object Counting with Semantic-Geometric Priors [52.28092505350977]
本稿では,オープン語彙フレームワークを用いた複数のオブジェクトカテゴリの同時カウントを実現するための,より実践的なアプローチを提案する。
我々のソリューションであるOmniCountは、事前訓練されたモデルから意味的および幾何学的な洞察(優先順位)を用いて、ユーザが指定した複数のカテゴリのオブジェクトをカウントすることで際立っている。
OmniCount-191の包括的な評価は、他の主要なベンチマークとともに、OmniCountの例外的なパフォーマンスを示し、既存のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-08T16:38:11Z) - ABC Easy as 123: A Blind Counter for Exemplar-Free Multi-Class Class-agnostic Counting [0.0]
我々は,MCAC(Multi-class-Agnostic Counting dataset)とABC123(A Blind Counter)を提案する。
ABC123は、トレーニングや推論中に型を使用せずに、複数のタイプのオブジェクトを同時にカウントできる。
ABC123は,ヒトのループ内アノテーションを必要とせず,MCACの現代的な手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-09T15:18:46Z) - Dilated-Scale-Aware Attention ConvNet For Multi-Class Object Counting [18.733301622920102]
多クラスオブジェクトカウントは、オブジェクトカウントタスクの適用範囲を広げる。
マルチターゲット検出タスクは、いくつかのシナリオでマルチクラスオブジェクトカウントを実現することができる。
ポイントレベルのアノテーションに基づく簡便かつ効率的なカウントネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T08:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。