論文の概要: A Survey on Class-Agnostic Counting: Advancements from Reference-Based to Open-World Text-Guided Approaches
- arxiv url: http://arxiv.org/abs/2501.19184v3
- Date: Mon, 28 Apr 2025 20:50:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 20:17:25.6612
- Title: A Survey on Class-Agnostic Counting: Advancements from Reference-Based to Open-World Text-Guided Approaches
- Title(参考訳): クラス非依存カウントに関する調査--参照ベースからオープンワールドテキストガイドアプローチへの展開
- Authors: Luca Ciampi, Ali Azmoudeh, Elif Ecem Akbaba, Erdi Sarıtaş, Ziya Ata Yazıcı, Hazım Kemal Ekenel, Giuseppe Amato, Fabrizio Falchi,
- Abstract要約: CAC(class-agnostic counting, Class-Agnostic counting, CAC)法について概説した。
本稿では,CACアプローチを参照ベース,参照レス,オープンワールドの3つのパラダイムに分類する分類法を提案する。
本研究では, FSC-147データセット, 金標準指標を用いたリーダボード, CARPKデータセットを用いて一般化能力の評価を行う。
- 参考スコア(独自算出の注目度): 6.356364436395916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual object counting has recently shifted towards class-agnostic counting (CAC), which addresses the challenge of counting objects across arbitrary categories -- a crucial capability for flexible and generalizable counting systems. Unlike humans, who effortlessly identify and count objects from diverse categories without prior knowledge, most existing counting methods are restricted to enumerating instances of known classes, requiring extensive labeled datasets for training and struggling in open-vocabulary settings. In contrast, CAC aims to count objects belonging to classes never seen during training, operating in a few-shot setting. In this paper, we present the first comprehensive review of CAC methodologies. We propose a taxonomy to categorize CAC approaches into three paradigms based on how target object classes can be specified: reference-based, reference-less, and open-world text-guided. Reference-based approaches achieve state-of-the-art performance by relying on exemplar-guided mechanisms. Reference-less methods eliminate exemplar dependency by leveraging inherent image patterns. Finally, open-world text-guided methods use vision-language models, enabling object class descriptions via textual prompts, offering a flexible and promising solution. Based on this taxonomy, we provide an overview of the architectures of 29 CAC approaches and report their results on gold-standard benchmarks. We compare their performance and discuss their strengths and limitations. Specifically, we present results on the FSC-147 dataset, setting a leaderboard using gold-standard metrics, and on the CARPK dataset to assess generalization capabilities. Finally, we offer a critical discussion of persistent challenges, such as annotation dependency and generalization, alongside future directions. We believe this survey will be a valuable resource, showcasing CAC advancements and guiding future research.
- Abstract(参考訳): ビジュアルオブジェクトのカウントは、最近、クラスに依存しないカウント(CAC)へと移行した。任意のカテゴリにまたがってオブジェクトをカウントするという課題に対処する - 柔軟で一般化可能なカウントシステムにとって、重要な能力である。
事前の知識のない多様なカテゴリのオブジェクトを積極的に識別し数える人間とは異なり、既存のカウント方法は既知のクラスの例を列挙することに制限されており、トレーニングのためにラベル付きデータセットを幅広く必要としており、オープン語彙の設定に苦慮している。
対照的にCACは、トレーニング中に見たことのないクラスに属するオブジェクトを数えることを目標としている。
本稿では,CACの方法論を総合的に概観する。
本稿では,CACのアプローチを,参照ベース,参照レス,オープンワールドのテキスト誘導という3つのパラダイムに分類する分類法を提案する。
参照ベースのアプローチは、典型的な誘導機構に依存して最先端のパフォーマンスを実現する。
参照なしのメソッドは、固有のイメージパターンを活用することで、典型的な依存性を排除します。
最後に、オープンワールドのテキスト誘導メソッドは、視覚言語モデルを使用し、テキストプロンプトによるオブジェクトクラス記述を可能にし、柔軟で有望なソリューションを提供する。
この分類に基づいて、29のCACアプローチのアーキテクチャの概要と、それらの結果をゴールドスタンダードベンチマークで報告する。
私たちは彼らのパフォーマンスを比較し、彼らの強みと限界について議論します。
具体的には、FSC-147データセット、ゴールドスタンダードメトリクスを用いたリーダーボードの設定、一般化能力を評価するCARPKデータセットについて結果を示す。
最後に、アノテーションの依存性や一般化といった永続的な課題と将来の方向性について批判的な議論を行う。
この調査は、CACの進歩を示し、今後の研究を導く上で、貴重なリソースになるだろうと考えています。
関連論文リスト
- SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - Mind the Prompt: A Novel Benchmark for Prompt-based Class-Agnostic Counting [8.000723123087473]
クラスに依存しないカウント(CAC)は、モデルトレーニング中に見たことのない任意のオブジェクトクラスのインスタンスをカウントする。
本稿では,Prompt-Aware Countingベンチマークを導入し,プロンプトベースのCACモデルの堅牢性と信頼性を評価する。
我々は最先端の手法を評価し、標準クラス固有の計数基準で印象的な結果を得たものの、入力プロンプトの理解に重大な欠陥があることを実証した。
論文 参考訳(メタデータ) (2024-09-24T10:35:42Z) - Contextuality Helps Representation Learning for Generalized Category Discovery [5.885208652383516]
本稿では、文脈性の概念を活用することにより、一般化カテゴリー発見(GCD)への新たなアプローチを提案する。
我々のモデルでは,コントラスト学習に最も近いコンテキストが使用されるインスタンスレベルと,コントラスト学習を利用するクラスタレベルという,2つのコンテキストレベルを統合している。
文脈情報の統合は、特徴学習を効果的に改善し、その結果、すべてのカテゴリの分類精度が向上する。
論文 参考訳(メタデータ) (2024-07-29T07:30:41Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - An Evaluation Framework for Mapping News Headlines to Event Classes in a
Knowledge Graph [3.9742873618618275]
本稿では,Wikidata のイベントクラスにマップされたニュース見出しのベンチマークデータセットを作成する手法を提案する。
このデータセットを用いて、このタスクの教師なしメソッドの2つのクラスを調査する。
今後の課題に対する評価,教訓,方向性について紹介する。
論文 参考訳(メタデータ) (2023-12-04T20:42:26Z) - Leveraging Knowledge Graphs for Zero-Shot Object-agnostic State
Classification [1.6582445398167214]
我々は,オブジェクトの知識や推定に頼らずに,あるオブジェクトの状態を予測する最初のオブジェクト非依存状態分類法(OaSC)を提案する。
提案手法の各種環境における性能について検討した。
提案したOaSC法は,すべてのデータセットやベンチマークにおける既存手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-22T22:19:11Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Towards Human-Centred Explainability Benchmarks For Text Classification [4.393754160527062]
本稿では,テキスト分類の妥当性を評価するために,テキスト分類ベンチマークを拡張することを提案する。
有効な説明を行う能力について客観的に評価する上での課題について検討する。
我々は、これらのベンチマークを人間中心のアプリケーションに基礎を置くことを提案する。
論文 参考訳(メタデータ) (2022-11-10T09:52:31Z) - Recent Few-Shot Object Detection Algorithms: A Survey with Performance
Comparison [54.357707168883024]
Few-Shot Object Detection (FSOD)は、人間の学習能力を模倣する。
FSODは、学習した汎用オブジェクトの知識を共通のヘビーテールから新しいロングテールオブジェクトクラスにインテリジェントに転送する。
本稿では,問題定義,共通データセット,評価プロトコルなどを含むFSODの概要を紹介する。
論文 参考訳(メタデータ) (2022-03-27T04:11:28Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - One-Class Classification: A Survey [96.17410674315816]
One-Class Classification (OCC) は、トレーニング中に観測されたデータが単一の正のクラスからのものであるマルチクラス分類の特別なケースである。
視覚認識のための古典的統計的および最近の深層学習に基づくOCC手法のサーベイを提供する。
論文 参考訳(メタデータ) (2021-01-08T15:30:29Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。