論文の概要: OmniCount: Multi-label Object Counting with Semantic-Geometric Priors
- arxiv url: http://arxiv.org/abs/2403.05435v3
- Date: Wed, 20 Mar 2024 21:57:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 18:48:21.263139
- Title: OmniCount: Multi-label Object Counting with Semantic-Geometric Priors
- Title(参考訳): OmniCount:Semantic-Geometric Priorsを用いたマルチラベルオブジェクトカウント
- Authors: Anindya Mondal, Sauradip Nag, Xiatian Zhu, Anjan Dutta,
- Abstract要約: 本稿では,オープン語彙フレームワークを用いて複数のオブジェクトカテゴリを同時カウント可能な,より実用的なアプローチを提案する。
我々のソリューションであるOmniCountは、事前訓練されたモデルから意味的および幾何学的な洞察を用いて、ユーザが指定したオブジェクトを数えることによって際立っている。
OmniCount-191の包括的な評価は、他の主要なベンチマークとともに、OmniCountの例外的なパフォーマンスを示しています。
- 参考スコア(独自算出の注目度): 42.38571663534819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object counting is pivotal for understanding the composition of scenes. Previously, this task was dominated by class-specific methods, which have gradually evolved into more adaptable class-agnostic strategies. However, these strategies come with their own set of limitations, such as the need for manual exemplar input and multiple passes for multiple categories, resulting in significant inefficiencies. This paper introduces a new, more practical approach enabling simultaneous counting of multiple object categories using an open vocabulary framework. Our solution, OmniCount, stands out by using semantic and geometric insights from pre-trained models to count multiple categories of objects as specified by users, all without additional training. OmniCount distinguishes itself by generating precise object masks and leveraging point prompts via the Segment Anything Model for efficient counting. To evaluate OmniCount, we created the OmniCount-191 benchmark, a first-of-its-kind dataset with multi-label object counts, including points, bounding boxes, and VQA annotations. Our comprehensive evaluation in OmniCount-191, alongside other leading benchmarks, demonstrates OmniCount's exceptional performance, significantly outpacing existing solutions and heralding a new era in object counting technology.
- Abstract(参考訳): オブジェクトのカウントはシーンの構成を理解する上で重要である。
以前は、このタスクはクラス固有のメソッドに支配され、徐々に適応性のあるクラスに依存しない戦略へと進化してきた。
しかしながら、これらの戦略には、手動の模範入力の必要性や複数のカテゴリの複数のパスなど、独自の制限があるため、大きな非効率性が生じる。
本稿では,オープン語彙フレームワークを用いて複数のオブジェクトカテゴリを同時カウント可能な,より実用的なアプローチを提案する。
我々のソリューションであるOmniCountは、事前訓練されたモデルから意味的および幾何学的な洞察を用いて、ユーザーが指定した複数のカテゴリのオブジェクトを、追加のトレーニングなしでカウントすることで際立っている。
OmniCountは、正確なオブジェクトマスクを生成し、Segment Anything Modelを介してポイントプロンプトを活用することで、自分自身を区別する。
OmniCount-191ベンチマークは、ポイント、バウンディングボックス、VQAアノテーションを含む、複数ラベルのオブジェクトカウントを備えたファーストオブザイズ型データセットです。
OmniCount-191の包括的な評価は、他の主要なベンチマークとともに、OmniCountの優れたパフォーマンスを示し、既存のソリューションを大幅に上回り、オブジェクトカウント技術の新たな時代を告げています。
関連論文リスト
- CountGD: Multi-Modal Open-World Counting [54.88804890463491]
本稿では,画像中のオープン語彙オブジェクトの数値化の一般化と精度の向上を目的とする。
本稿では,最初のオープンワールドカウントモデルであるCountGDを紹介した。
論文 参考訳(メタデータ) (2024-07-05T16:20:48Z) - AFreeCA: Annotation-Free Counting for All [17.581015609730017]
対象物に関連する特徴を学習するための教師なしソート手法を導入する。
また,画像を確実にカウント可能な被写体を含むパッチに分割する密度分類器誘導方式を提案する。
論文 参考訳(メタデータ) (2024-03-07T23:18:34Z) - Zero-Shot Object Counting with Language-Vision Models [50.1159882903028]
クラスに依存しないオブジェクトカウントは、テスト時に任意のクラスのオブジェクトインスタンスをカウントすることを目的としている。
現在の手法では、新しいカテゴリではしばしば利用できない入力として、人間に注釈をつけた模範を必要とする。
テスト期間中にクラス名のみを利用できる新しい設定であるゼロショットオブジェクトカウント(ZSC)を提案する。
論文 参考訳(メタデータ) (2023-09-22T14:48:42Z) - Learning from Pseudo-labeled Segmentation for Multi-Class Object
Counting [35.652092907690694]
CAC(Class-Agnostic counting)は、様々な領域にまたがる多くの潜在的な応用がある。
目標は、いくつかの注釈付き例に基づいて、テスト中に任意のカテゴリのオブジェクトを数えることである。
擬似ラベルマスクを用いて学習したセグメンテーションモデルは、任意のマルチクラス画像に対して効果的に対象をローカライズできることを示す。
論文 参考訳(メタデータ) (2023-07-15T01:33:19Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z) - Learning to Count Anything: Reference-less Class-agnostic Counting with
Weak Supervision [11.037585450795357]
カウントは、その中核として、反復認識タスクであることを示す。
我々は,自己監督型視覚変換器と軽量のカウントレグレッションヘッドを組み合わせることで,競合する結果が得られることを示した。
論文 参考訳(メタデータ) (2022-05-20T14:26:38Z) - Dilated-Scale-Aware Attention ConvNet For Multi-Class Object Counting [18.733301622920102]
多クラスオブジェクトカウントは、オブジェクトカウントタスクの適用範囲を広げる。
マルチターゲット検出タスクは、いくつかのシナリオでマルチクラスオブジェクトカウントを実現することができる。
ポイントレベルのアノテーションに基づく簡便かつ効率的なカウントネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T08:38:28Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z) - Rethinking Object Detection in Retail Stores [55.359582952686175]
そこで我々はLocountと略される新しいタスク、同時にオブジェクトのローカライゼーションとカウントを提案する。
Locountは、関心のあるオブジェクトのグループをインスタンス数でローカライズするアルゴリズムを必要とする。
大規模オブジェクトのローカライズと数えるデータセットを小売店で収集する。
論文 参考訳(メタデータ) (2020-03-18T14:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。