論文の概要: Count Anything at Any Granularity
- arxiv url: http://arxiv.org/abs/2605.10887v1
- Date: Mon, 11 May 2026 17:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.036785
- Title: Count Anything at Any Granularity
- Title(参考訳): 粒度で数えるもの
- Authors: Chang Liu, Haoning Wu, Weidi Xie,
- Abstract要約: KubriCountは、これまでで最大で、最も包括的な注釈付きカウントデータセットである。
テキストと視覚的特徴を相補的なターゲット仕様として併用する多粒カウントモデルを訓練する。
HieraCountは、マルチグラデーションカウントの精度を大幅に改善し、現実のシナリオに対して堅牢に一般化する。
- 参考スコア(独自算出の注目度): 55.70950689938894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-world object counting remains brittle: despite rapid advances in vision-language models (VLMs), reliably counting the objects a user intends is far from solved. We argue that a central reason is that counting granularity is left implicit; users may refer to a specific identity, an attribute, an instance type, a category, or an abstract concept, yet most methods treat "what to count" as a single, category-level matching problem. In this work, we redefine open-world counting as multi-grained counting, where visual exemplars specify target appearance and fine-grained text, with optional negative prompts, specifies the intended semantic granularity across five explicit levels. Making granularity explicit, however, exposes a critical data bottleneck: existing counting datasets lack the multi-category scenes, controlled distractors, and instance-level annotations needed to verify fine-grained prompt semantics. To address this, we propose the first fully automatic data-scaling pipeline that integrates controllable 3D synthesis with consistent image editing and VLM-based filtering, and use it to construct KubriCount, the largest and most comprehensively annotated counting dataset to date, supporting both training and multi-grained evaluation. Systematic benchmarking reveals that both multimodal large language models and specialist counting models exhibit severe prompt-following failures under fine-grained distinctions. Motivated by these findings, we train HieraCount, a multi-grained counting model that jointly leverages text and visual exemplars as complementary target specifications. HieraCount substantially improves multi-grained counting accuracy and generalizes robustly to challenging real-world scenarios. The project page is available here: https://verg-avesta.github.io/KubriCount/.
- Abstract(参考訳): 視覚言語モデル(VLM)の急速な進歩にもかかわらず、ユーザが意図するオブジェクトを確実にカウントすることは解決できない。
ユーザーは特定のアイデンティティ、属性、インスタンスタイプ、カテゴリ、抽象概念を参照できるが、ほとんどのメソッドは"カウントすべきもの"を単一のカテゴリレベルのマッチング問題として扱う。
本研究では,オープンワールドカウントをマルチグラニュアルカウントとして再定義し,視覚的見本がターゲットの外観と微粒なテキストを任意に負のプロンプトで指定し,意図する意味的粒度を5つの明示レベルにわたって規定する。
既存のカウントデータセットには、複数のカテゴリのシーン、制御されたイントラクタ、そしてきめ細かいプロンプトセマンティクスの検証に必要なインスタンスレベルのアノテーションが欠けている。
これを解決するために,制御可能な3次元合成と一貫した画像編集とVLMベースのフィルタリングを統合した最初の完全自動データスケーリングパイプラインを提案する。
システマティック・ベンチマークでは、マルチモーダルな大言語モデルとスペシャリストの計数モデルの両方が、きめ細かな区別の下で深刻な急速追従の失敗を示すことが明らかになった。
これらの結果に触発されたHieraCountは、テキストと視覚的例を相補的なターゲット仕様として共同で活用するマルチグラデーションカウントモデルである。
HieraCountは、マルチグラデーションカウントの精度を大幅に改善し、現実のシナリオに対して堅牢に一般化する。
プロジェクトページは以下の通りである。
関連論文リスト
- Bootstrapping MLLM for Weakly-Supervised Class-Agnostic Object Counting [59.37613121962146]
本稿では,クラスに依存しないオブジェクトカウントのためのMLLM駆動型弱教師付きフレームワークWS-COCを提案する。
WS-COCは、多くの最先端の完全に管理されたメソッドと一致し、また、アノテーションのコストを大幅に削減します。
論文 参考訳(メタデータ) (2026-02-13T09:58:35Z) - CountGD++: Generalized Prompting for Open-World Counting [54.61576076312857]
対象オブジェクトの指定方法を拡張する新しい機能を導入します。
具体的には、テキストや視覚的な例でカウントすべきでないことを可能とするために、プロンプトを拡張します。
また、推論における視覚例のアノテーションを自動化する擬似例の概念も導入する。
論文 参考訳(メタデータ) (2025-12-29T10:23:22Z) - Can Current AI Models Count What We Mean, Not What They See? A Benchmark and Systematic Evaluation [21.90583276089241]
PairTallyは、きめ細かいビジュアルカウントを評価するために設計されたベンチマークデータセットである。
PairTallyの681の高解像度画像はそれぞれ2つの対象カテゴリを含んでいる。
最近の進歩にもかかわらず、現在のモデルはユーザーが何を意図しているかを確実に数えるのに苦労している。
論文 参考訳(メタデータ) (2025-09-17T13:06:58Z) - CountGD: Multi-Modal Open-World Counting [54.88804890463491]
本稿では,画像中のオープン語彙オブジェクトの数値化の一般化と精度の向上を目的とする。
本稿では,最初のオープンワールドカウントモデルであるCountGDを紹介した。
論文 参考訳(メタデータ) (2024-07-05T16:20:48Z) - OmniCount: Multi-label Object Counting with Semantic-Geometric Priors [52.28092505350977]
本稿では,オープン語彙フレームワークを用いた複数のオブジェクトカテゴリの同時カウントを実現するための,より実践的なアプローチを提案する。
我々のソリューションであるOmniCountは、事前訓練されたモデルから意味的および幾何学的な洞察(優先順位)を用いて、ユーザが指定した複数のカテゴリのオブジェクトをカウントすることで際立っている。
OmniCount-191の包括的な評価は、他の主要なベンチマークとともに、OmniCountの例外的なパフォーマンスを示し、既存のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-08T16:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。