論文の概要: Does it Really Count? Assessing Semantic Grounding in Text-Guided Class-Agnostic Counting
- arxiv url: http://arxiv.org/abs/2605.02752v2
- Date: Wed, 13 May 2026 14:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.751909
- Title: Does it Really Count? Assessing Semantic Grounding in Text-Guided Class-Agnostic Counting
- Title(参考訳): 実際に数えるのか? テキスト誘導型クラス非依存数における意味的接地の評価
- Authors: Giacomo Pacini, Luca Ciampi, Nicola Messina, Nicola Tonellotto, Giuseppe Amato, Fabrizio Falchi,
- Abstract要約: オープンワールドテキスト誘導クラス非依存カウント(CAC)は、自然言語プロンプトを用いて任意のオブジェクトクラスをカウントするためのフレキシブルパラダイムとして登場した。
いくつかの最先端のCACモデルは、与えられたプロンプトに基づいてどのオブジェクトクラスをカウントすべきかを決定するのに苦労している。
モデル堅牢性と信頼性に着目した新しい評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.927293384172003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-world text-guided class-agnostic counting (CAC) has emerged as a flexible paradigm for counting arbitrary object classes by using natural language prompts. However, current evaluation protocols primarily focus on standard counting errors within single-category images, overlooking a fundamental requirement: the ability to correctly ground the textual prompt in the visual scene. In this paper, we show that several state-of-the-art CAC models often struggle to determine which object class should be counted based on the given prompt, revealing a misalignment between textual semantics and visual object representations. This limitation leads to spurious counting responses and reduced reliability in real-world scenarios. To systematically address these limitations, we propose a new evaluation framework focused on model robustness and trustworthiness. Our contribution is two-fold: (i) we introduce PrACo++ (Prompt-Aware Counting++), a novel test suite featuring two dedicated evaluation protocols -- the negative-label test and the distractor test -- paired with new specialized metrics; and (ii) we present the MUCCA (MUlti-Category Class-Agnostic counting) evaluation dataset, a new collection of real-world images featuring multiple annotated object categories per scene, unlike existing CAC benchmarks that typically include a single category per image. Our extensive experimental evaluation of 10 state-of-the-art methods shows that, despite strong performance under standard counting metrics, current models exhibit significant weaknesses in understanding and grounding object class descriptions. Finally, we provide a quantitative analysis of how semantic similarity between prompts influences these failures. Overall, our results underscore the need for more semantically grounded architectures and offer a reliable framework for future assessment in open-world text-guided CAC methods.
- Abstract(参考訳): オープンワールドテキスト誘導クラス非依存カウント(CAC)は、自然言語プロンプトを用いて任意のオブジェクトクラスをカウントするためのフレキシブルパラダイムとして登場した。
しかしながら、現在の評価プロトコルは主に単一のカテゴリ内の標準的なカウントエラーに注目しており、視覚的なシーンでテキストプロンプトを正しくグラウンドする能力という、基本的な要件を見落としている。
本稿では,現在最先端のCACモデルにおいて,与えられたプロンプトに基づいてどのオブジェクトクラスをカウントすべきかを決定するのに苦慮し,テキスト意味論と視覚オブジェクト表現の相違を明らかにする。
この制限は、現実世界のシナリオにおいて、急激なカウント応答と信頼性の低下につながる。
これらの制約を体系的に解決するために,モデルの堅牢性と信頼性に着目した新しい評価フレームワークを提案する。
私たちの貢献は2つあります。
i) PrACo++(Prompt-Aware Counting++)という,2つの専用評価プロトコル – 負ラベルテストとイントラクタテスト – を備えた,新たな特殊なメトリクスと組み合わせたテストスイートを紹介します。
(II) MUCCA (MUlti-Category Class-Agnostic counting) 評価データセット(Multi-Category Class-Agnostic counting)を提案する。
10種類の最先端の手法を実験的に評価したところ、標準的な計数基準下での強い性能にもかかわらず、現在のモデルでは、オブジェクトのクラス記述の理解とグラウンドニングにおいて重大な弱点が示される。
最後に、プロンプト間の意味的類似性がこれらの失敗にどのように影響するかを定量的に分析する。
全体として、我々は、よりセマンティックな基盤を持つアーキテクチャの必要性を強調し、オープンワールドのテキスト誘導型CAC手法における将来の評価のための信頼性の高いフレームワークを提供する。
関連論文リスト
- Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。
近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。
そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文 参考訳(メタデータ) (2025-07-30T20:06:01Z) - SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - Generalized Semantic Contrastive Learning via Embedding Side Information for Few-Shot Object Detection [52.490375806093745]
マイクロショットオブジェクト検出(FSOD)の目的は、少数のトレーニングサンプルで新しいオブジェクトを検出することである。
本稿では,特徴空間とサンプル視点から得られる負の影響を緩和する側面情報を紹介する。
我々のモデルは従来の最先端手法よりも優れており、ほとんどのショット/スプリットにおけるFSODの能力は大幅に向上している。
論文 参考訳(メタデータ) (2025-04-09T17:24:05Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - A Survey on Class-Agnostic Counting: Advancements from Reference-Based to Open-World Text-Guided Approaches [6.356364436395916]
CAC(class-agnostic counting, Class-Agnostic counting, CAC)法について概説した。
本稿では,CACアプローチを参照ベース,参照レス,オープンワールドの3つのパラダイムに分類する分類法を提案する。
本研究では, FSC-147データセット, 金標準指標を用いたリーダボード, CARPKデータセットを用いて一般化能力の評価を行う。
論文 参考訳(メタデータ) (2025-01-31T14:47:09Z) - Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Mind the Prompt: A Novel Benchmark for Prompt-based Class-Agnostic Counting [8.000723123087473]
クラスに依存しないカウント(CAC)は、モデルトレーニング中に見たことのない任意のオブジェクトクラスのインスタンスをカウントする。
本稿では,Prompt-Aware Countingベンチマークを導入し,プロンプトベースのCACモデルの堅牢性と信頼性を評価する。
我々は最先端の手法を評価し、標準クラス固有の計数基準で印象的な結果を得たものの、入力プロンプトの理解に重大な欠陥があることを実証した。
論文 参考訳(メタデータ) (2024-09-24T10:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。