論文の概要: Can Current AI Models Count What We Mean, Not What They See? A Benchmark and Systematic Evaluation
- arxiv url: http://arxiv.org/abs/2509.13939v1
- Date: Wed, 17 Sep 2025 13:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.846581
- Title: Can Current AI Models Count What We Mean, Not What They See? A Benchmark and Systematic Evaluation
- Title(参考訳): 現在のAIモデルは、私たちが見ているものではなく、意味するものを数えることができるか? ベンチマークとシステム評価
- Authors: Gia Khanh Nguyen, Yifeng Huang, Minh Hoai,
- Abstract要約: PairTallyは、きめ細かいビジュアルカウントを評価するために設計されたベンチマークデータセットである。
PairTallyの681の高解像度画像はそれぞれ2つの対象カテゴリを含んでいる。
最近の進歩にもかかわらず、現在のモデルはユーザーが何を意図しているかを確実に数えるのに苦労している。
- 参考スコア(独自算出の注目度): 21.90583276089241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual counting is a fundamental yet challenging task, especially when users need to count objects of a specific type in complex scenes. While recent models, including class-agnostic counting models and large vision-language models (VLMs), show promise in counting tasks, their ability to perform fine-grained, intent-driven counting remains unclear. In this paper, we introduce PairTally, a benchmark dataset specifically designed to evaluate fine-grained visual counting. Each of the 681 high-resolution images in PairTally contains two object categories, requiring models to distinguish and count based on subtle differences in shape, size, color, or semantics. The dataset includes both inter-category (distinct categories) and intra-category (closely related subcategories) settings, making it suitable for rigorous evaluation of selective counting capabilities. We benchmark a variety of state-of-the-art models, including exemplar-based methods, language-prompted models, and large VLMs. Our results show that despite recent advances, current models struggle to reliably count what users intend, especially in fine-grained and visually ambiguous cases. PairTally provides a new foundation for diagnosing and improving fine-grained visual counting systems.
- Abstract(参考訳): 視覚的カウントは、特にユーザが複雑なシーンで特定のタイプのオブジェクトをカウントする必要がある場合、基本的な作業である。
クラス非依存のカウントモデルや大規模視覚言語モデル(VLM)を含む最近のモデルでは、タスクのカウントが約束されているが、細粒度で意図駆動のカウントを行う能力はまだ不明である。
本稿では,微細な視覚的カウントを評価するためのベンチマークデータセットであるPairTallyを紹介する。
PairTallyの681の高解像度画像には2つの対象カテゴリが含まれており、形状、サイズ、色、意味論の微妙な違いに基づいてモデルを識別しカウントする必要がある。
データセットにはカテゴリ間(個別カテゴリ)とカテゴリ内(近接関連サブカテゴリ)の両方が含まれており、選択カウント機能の厳密な評価に適している。
我々は,先進的な手法,言語プロンプトモデル,大規模VLMなど,最先端のさまざまなモデルをベンチマークする。
近年の進歩にもかかわらず、現在のモデルは、特にきめ細かな視覚的曖昧なケースにおいて、ユーザーの意図を確実に数えることに苦慮している。
PairTallyは、きめ細かい視覚的計数システムの診断と改善のための新しい基盤を提供する。
関連論文リスト
- LVLM-COUNT: Enhancing the Counting Ability of Large Vision-Language Models [5.892066196730199]
大規模視覚言語モデル(LVLM)は、タスクの数え上げに苦慮していることが知られている。
多数のオブジェクトに対するLVLMのカウント能力を向上する,シンプルで効果的なベースライン手法を提案する。
このアプローチの有効性を,さまざまなデータセットやベンチマークで実証する。
論文 参考訳(メタデータ) (2024-12-01T05:50:22Z) - Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - Zero-Shot Object Counting with Language-Vision Models [50.1159882903028]
クラスに依存しないオブジェクトカウントは、テスト時に任意のクラスのオブジェクトインスタンスをカウントすることを目的としている。
現在の手法では、新しいカテゴリではしばしば利用できない入力として、人間に注釈をつけた模範を必要とする。
テスト期間中にクラス名のみを利用できる新しい設定であるゼロショットオブジェクトカウント(ZSC)を提案する。
論文 参考訳(メタデータ) (2023-09-22T14:48:42Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Learning from Pseudo-labeled Segmentation for Multi-Class Object
Counting [35.652092907690694]
CAC(Class-Agnostic counting)は、様々な領域にまたがる多くの潜在的な応用がある。
目標は、いくつかの注釈付き例に基づいて、テスト中に任意のカテゴリのオブジェクトを数えることである。
擬似ラベルマスクを用いて学習したセグメンテーションモデルは、任意のマルチクラス画像に対して効果的に対象をローカライズできることを示す。
論文 参考訳(メタデータ) (2023-07-15T01:33:19Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。