論文の概要: OCCAM: Class-Agnostic, Training-Free, Prior-Free and Multi-Class Object Counting
- arxiv url: http://arxiv.org/abs/2601.13871v1
- Date: Tue, 20 Jan 2026 11:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.284917
- Title: OCCAM: Class-Agnostic, Training-Free, Prior-Free and Multi-Class Object Counting
- Title(参考訳): OCCAM: クラス非依存、トレーニング不要、事前自由、マルチクラスオブジェクトカウント
- Authors: Michail Spanakis, Iason Oikonomidis, Antonis Argyros,
- Abstract要約: CAC(Class-Agnostic Object Counting)は、イメージ内の任意のクラスからオブジェクトのインスタンスをカウントする。
補足情報を必要としないCACに対する初となるトレーニングフリーアプローチであるOCCAMを提示する。
- 参考スコア(独自算出の注目度): 1.2196508752999795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class-Agnostic object Counting (CAC) involves counting instances of objects from arbitrary classes within an image. Due to its practical importance, CAC has received increasing attention in recent years. Most existing methods assume a single object class per image, rely on extensive training of large deep learning models and address the problem by incorporating additional information, such as visual exemplars or text prompts. In this paper, we present OCCAM, the first training-free approach to CAC that operates without the need of any supplementary information. Moreover, our approach addresses the multi-class variant of the problem, as it is capable of counting the object instances in each and every class among arbitrary object classes within an image. We leverage Segment Anything Model 2 (SAM2), a foundation model, and a custom threshold-based variant of the First Integer Neighbor Clustering Hierarchy (FINCH) algorithm to achieve competitive performance on widely used benchmark datasets, FSC-147 and CARPK. We propose a synthetic multi-class dataset and F1 score as a more suitable evaluation metric. The code for our method and the proposed synthetic dataset will be made publicly available at https://mikespanak.github.io/OCCAM_counter.
- Abstract(参考訳): CAC(Class-Agnostic Object Counting)は、イメージ内の任意のクラスからオブジェクトのインスタンスをカウントする。
現実的な重要性から、CACは近年注目を集めている。
既存のほとんどのメソッドは、画像ごとに単一のオブジェクトクラスを仮定し、大規模なディープラーニングモデルの広範なトレーニングに依存し、視覚的な例えやテキストプロンプトなどの追加情報を統合することで問題に対処する。
本稿では,補足情報を必要としないCACに対する最初のトレーニングフリーアプローチであるOCCAMを提案する。
さらに,画像内の任意のオブジェクトクラス内の各クラスおよび各クラスのオブジェクトインスタンスをカウントできるため,この問題のマルチクラス変異に対処する。
我々は、基盤モデルであるSegment Anything Model 2(SAM2)と、FINCHアルゴリズムの独自のしきい値ベースの変種を用いて、広く使用されているベンチマークデータセットであるFSC-147とCARPKの競合性能を達成する。
より適切な評価基準として,合成多クラスデータセットとF1スコアを提案する。
我々の方法と提案した合成データセットのコードはhttps://mikespanak.github.io/OCCAM_counter.comで公開されます。
関連論文リスト
- Improving Multi-label Recognition using Class Co-Occurrence Probabilities [7.062238472483738]
マルチラベル認識(MLR)は、画像内の複数のオブジェクトを識別する。
最近の研究は、タスクのための大規模なテキスト画像データセットに基づいて訓練された視覚言語モデル(VLM)からの情報を活用している。
オブジェクトペアの共起情報を組み込んだ独立分類器の拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T20:33:25Z) - Point, Segment and Count: A Generalized Framework for Object Counting [40.192374437785155]
クラスに依存しないオブジェクトカウントは、例ボックスやクラス名に関して、イメージ内のすべてのオブジェクトをカウントすることを目的としている。
本稿では,検出に基づく少数ショットとゼロショットの両方のオブジェクトカウントのための一般化されたフレームワークを提案する。
PseCoは、少数ショット/ゼロショットオブジェクトカウント/検出の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-21T06:55:21Z) - Zero-Shot Object Counting with Language-Vision Models [50.1159882903028]
クラスに依存しないオブジェクトカウントは、テスト時に任意のクラスのオブジェクトインスタンスをカウントすることを目的としている。
現在の手法では、新しいカテゴリではしばしば利用できない入力として、人間に注釈をつけた模範を必要とする。
テスト期間中にクラス名のみを利用できる新しい設定であるゼロショットオブジェクトカウント(ZSC)を提案する。
論文 参考訳(メタデータ) (2023-09-22T14:48:42Z) - Learning from Pseudo-labeled Segmentation for Multi-Class Object
Counting [35.652092907690694]
CAC(Class-Agnostic counting)は、様々な領域にまたがる多くの潜在的な応用がある。
目標は、いくつかの注釈付き例に基づいて、テスト中に任意のカテゴリのオブジェクトを数えることである。
擬似ラベルマスクを用いて学習したセグメンテーションモデルは、任意のマルチクラス画像に対して効果的に対象をローカライズできることを示す。
論文 参考訳(メタデータ) (2023-07-15T01:33:19Z) - Unicom: Universal and Compact Representation Learning for Image
Retrieval [65.96296089560421]
大規模LAION400Mを,CLIPモデルにより抽出された共同テキストと視覚的特徴に基づいて,100万の擬似クラスにクラスタリングする。
このような矛盾を緩和するために、我々は、マージンベースのソフトマックス損失を構築するために、ランダムにクラス間の部分的なプロトタイプを選択する。
提案手法は,複数のベンチマークにおいて,教師なし,教師なしの画像検索手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-12T14:25:52Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。