論文の概要: A Survey on Class-Agnostic Counting: Advancements from Reference-Based to Open-World Text-Guided Approaches
- arxiv url: http://arxiv.org/abs/2501.19184v2
- Date: Mon, 10 Feb 2025 15:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:25:15.937048
- Title: A Survey on Class-Agnostic Counting: Advancements from Reference-Based to Open-World Text-Guided Approaches
- Title(参考訳): クラス非依存カウントに関する調査--参照ベースからオープンワールドテキストガイドアプローチへの展開
- Authors: Luca Ciampi, Ali Azmoudeh, Elif Ecem Akbaba, Erdi Sarıtaş, Ziya Ata Yazıcı, Hazım Kemal Ekenel, Giuseppe Amato, Fabrizio Falchi,
- Abstract要約: CAC(class-agnostic counting, Class-Agnostic counting, CAC)法について概説した。
本稿では,CACアプローチを参照ベース,参照レス,オープンワールドの3つのパラダイムに分類する分類法を提案する。
本研究では, FSC-147データセット, 金標準指標を用いたリーダボード, CARPKデータセットを用いて一般化能力の評価を行う。
- 参考スコア(独自算出の注目度): 6.356364436395916
- License:
- Abstract: Visual object counting has recently shifted towards class-agnostic counting (CAC), which addresses the challenge of counting objects across arbitrary categories -- a crucial capability for flexible and generalizable counting systems. Unlike humans, who effortlessly identify and count objects from diverse categories without prior knowledge, most existing counting methods are restricted to enumerating instances of known classes, requiring extensive labeled datasets for training and struggling in open-vocabulary settings. In contrast, CAC aims to count objects belonging to classes never seen during training, operating in a few-shot setting. In this paper, we present the first comprehensive review of CAC methodologies. We propose a taxonomy to categorize CAC approaches into three paradigms based on how target object classes can be specified: reference-based, reference-less, and open-world text-guided. Reference-based approaches achieve state-of-the-art performance by relying on exemplar-guided mechanisms. Reference-less methods eliminate exemplar dependency by leveraging inherent image patterns. Finally, open-world text-guided methods use vision-language models, enabling object class descriptions via textual prompts, offering a flexible and promising solution. Based on this taxonomy, we provide an overview of the architectures of 29 CAC approaches and report their results on gold-standard benchmarks. We compare their performance and discuss their strengths and limitations. Specifically, we present results on the FSC-147 dataset, setting a leaderboard using gold-standard metrics, and on the CARPK dataset to assess generalization capabilities. Finally, we offer a critical discussion of persistent challenges, such as annotation dependency and generalization, alongside future directions. We believe this survey will be a valuable resource, showcasing CAC advancements and guiding future research.
- Abstract(参考訳): ビジュアルオブジェクトのカウントは、最近、クラスに依存しないカウント(CAC)へと移行した。任意のカテゴリにまたがってオブジェクトをカウントするという課題に対処する - 柔軟で一般化可能なカウントシステムにとって、重要な能力である。
事前の知識のない多様なカテゴリのオブジェクトを積極的に識別し数える人間とは異なり、既存のカウント方法は既知のクラスの例を列挙することに制限されており、トレーニングのためにラベル付きデータセットを幅広く必要としており、オープン語彙の設定に苦慮している。
対照的にCACは、トレーニング中に見たことのないクラスに属するオブジェクトを数えることを目標としている。
本稿では,CACの方法論を総合的に概観する。
本稿では,CACのアプローチを,参照ベース,参照レス,オープンワールドのテキスト誘導という3つのパラダイムに分類する分類法を提案する。
参照ベースのアプローチは、典型的な誘導機構に依存して最先端のパフォーマンスを実現する。
参照なしのメソッドは、固有のイメージパターンを活用することで、典型的な依存性を排除します。
最後に、オープンワールドのテキスト誘導メソッドは、視覚言語モデルを使用し、テキストプロンプトによるオブジェクトクラス記述を可能にし、柔軟で有望なソリューションを提供する。
この分類に基づいて、29のCACアプローチのアーキテクチャの概要と、それらの結果をゴールドスタンダードベンチマークで報告する。
私たちは彼らのパフォーマンスを比較し、彼らの強みと限界について議論します。
具体的には、FSC-147データセット、ゴールドスタンダードメトリクスを用いたリーダーボードの設定、一般化能力を評価するCARPKデータセットについて結果を示す。
最後に、アノテーションの依存性や一般化といった永続的な課題と将来の方向性について批判的な議論を行う。
この調査は、CACの進歩を示し、今後の研究を導く上で、貴重なリソースになるだろうと考えています。
関連論文リスト
- Mind the Prompt: A Novel Benchmark for Prompt-based Class-Agnostic Counting [8.000723123087473]
クラスに依存しないカウント(CAC)は、モデルトレーニング中に見たことのない任意のオブジェクトクラスのインスタンスをカウントする。
本稿では,Prompt-Aware Countingベンチマークを導入し,プロンプトベースのCACモデルの堅牢性と信頼性を評価する。
我々は最先端の手法を評価し、標準クラス固有の計数基準で印象的な結果を得たものの、入力プロンプトの理解に重大な欠陥があることを実証した。
論文 参考訳(メタデータ) (2024-09-24T10:35:42Z) - Contextuality Helps Representation Learning for Generalized Category Discovery [5.885208652383516]
本稿では、文脈性の概念を活用することにより、一般化カテゴリー発見(GCD)への新たなアプローチを提案する。
我々のモデルでは,コントラスト学習に最も近いコンテキストが使用されるインスタンスレベルと,コントラスト学習を利用するクラスタレベルという,2つのコンテキストレベルを統合している。
文脈情報の統合は、特徴学習を効果的に改善し、その結果、すべてのカテゴリの分類精度が向上する。
論文 参考訳(メタデータ) (2024-07-29T07:30:41Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - An Evaluation Framework for Mapping News Headlines to Event Classes in a
Knowledge Graph [3.9742873618618275]
本稿では,Wikidata のイベントクラスにマップされたニュース見出しのベンチマークデータセットを作成する手法を提案する。
このデータセットを用いて、このタスクの教師なしメソッドの2つのクラスを調査する。
今後の課題に対する評価,教訓,方向性について紹介する。
論文 参考訳(メタデータ) (2023-12-04T20:42:26Z) - Leveraging Knowledge Graphs for Zero-Shot Object-agnostic State
Classification [1.6582445398167214]
我々は,オブジェクトの知識や推定に頼らずに,あるオブジェクトの状態を予測する最初のオブジェクト非依存状態分類法(OaSC)を提案する。
提案手法の各種環境における性能について検討した。
提案したOaSC法は,すべてのデータセットやベンチマークにおける既存手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-22T22:19:11Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Class-incremental Novel Class Discovery [76.35226130521758]
クラス増進型新規クラス発見(class-iNCD)の課題について検討する。
基本クラスに関する過去の情報を忘れないようにする,クラスiNCDのための新しい手法を提案する。
3つの共通ベンチマークで実施した実験により,本手法が最先端の手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-07-18T13:49:27Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - One-Class Classification: A Survey [96.17410674315816]
One-Class Classification (OCC) は、トレーニング中に観測されたデータが単一の正のクラスからのものであるマルチクラス分類の特別なケースである。
視覚認識のための古典的統計的および最近の深層学習に基づくOCC手法のサーベイを提供する。
論文 参考訳(メタデータ) (2021-01-08T15:30:29Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。