論文の概要: Just Say the Word: Annotation-Free Fine-Grained Object Counting
- arxiv url: http://arxiv.org/abs/2504.11705v2
- Date: Fri, 08 Aug 2025 19:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.265902
- Title: Just Say the Word: Annotation-Free Fine-Grained Object Counting
- Title(参考訳): 言い換えれば、アノテーションなしの細粒度オブジェクトカウント
- Authors: Adriano D'Alessandro, Ali Mahdavi-Amiri, Ghassan Hamarneh,
- Abstract要約: 細粒度オブジェクトカウントは、クラスに依存しないカウントモデルにとって依然として大きな課題である。
カテゴリ名を与えられた場合、テキスト・ツー・イメージ拡散モデルによって生成された合成画像と擬似ラベルを用いて、プロンプトからコンパクトな概念を組み込む。
この埋め込み条件は、凍結したカウンタからの生のオーバーカウントを、実際のイメージや人間のアノテーションを必要とせずに、正確にカテゴリ固有の推定テキストに洗練する特殊化モジュールである。
- 参考スコア(独自算出の注目度): 17.581015609730017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained object counting remains a major challenge for class-agnostic counting models, which overcount visually similar but incorrect instances (e.g., jalape\~no vs. poblano). Addressing this by annotating new data and fully retraining the model is time-consuming and does not guarantee generalization to additional novel categories at test time. Instead, we propose an alternative paradigm: Given a category name, tune a compact concept embedding derived from the prompt using synthetic images and pseudo-labels generated by a text-to-image diffusion model. This embedding conditions a specialization module that refines raw overcounts from any frozen counter into accurate, category-specific estimates\textemdash without requiring real images or human annotations. We validate our approach on \textsc{Lookalikes}, a challenging new benchmark containing 1,037 images across 27 fine-grained subcategories, and show substantial improvements over strong baselines. Code and data will be released upon acceptance.
- Abstract(参考訳): 細粒度オブジェクトカウントは、視覚的に類似しているが間違ったインスタンス(例えば、jalape\~no vs. poblano)をオーバーカウントするクラス非依存のカウントモデルにとって、依然として大きな課題である。
新しいデータをアノテートしてモデルを完全に再トレーニングすることでこの問題に対処するには時間がかかり、テスト時に新たなカテゴリへの一般化を保証しません。
カテゴリ名を与えられた場合、テキストから画像への拡散モデルによって生成された合成画像と擬似ラベルを用いて、プロンプトから導かれるコンパクトな概念をチューンする。
この埋め込み条件は、凍結したカウンタからの生のオーバーカウントを、実際のイメージや人間のアノテーションを必要とせずに、正確でカテゴリ固有の評価\textemdashに洗練する特殊化モジュールである。
我々は,27の細粒度サブカテゴリにわたる1,037のイメージを含む挑戦的な新しいベンチマークであるtextsc{Lookalikes} に対するアプローチを検証するとともに,強いベースラインよりも大幅に改善されたことを示す。
コードとデータは受理時にリリースされる。
関連論文リスト
- Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - A Generic Method for Fine-grained Category Discovery in Natural Language Texts [38.297873969795546]
そこで本研究では,新たな目的関数によって導かれる意味的類似テキストの微細なクラスタをうまく検出する手法を提案する。
この方法は対数空間における意味的類似性を利用してユークリッド空間のサンプル分布を導く。
また,リアルタイムアプリケーションをサポートするセントロイド推論機構を提案する。
論文 参考訳(メタデータ) (2024-06-18T23:27:46Z) - Liberating Seen Classes: Boosting Few-Shot and Zero-Shot Text Classification via Anchor Generation and Classification Reframing [38.84431954053434]
短いショットとゼロショットのテキスト分類は、ラベル付きサンプルやラベル付きサンプルが全くない新しいクラスからのサンプルを認識することを目的としている。
少数ショットとゼロショットのテキスト分類のためのシンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-05-06T15:38:32Z) - A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-15T12:05:44Z) - Coarse2Fine: Fine-grained Text Classification on Coarsely-grained
Annotated Data [22.81068960545234]
本稿では,粗い注釈付きデータに対して,きめ細かい分類を行うことを目的とした,粗い粒度分類と呼ばれる新しい問題を提案する。
新しいきめ細かい人間のアノテーションを求める代わりに、ラベル表面の名前のみを人間の手引きとして活用することにしました。
我々のフレームワークは、微調整された生成モデルを用いて、擬似学習データをサンプリングし、分類器を訓練し、実際のラベルなしデータをブートストラップしてモデル修正を行う。
論文 参考訳(メタデータ) (2021-09-22T17:29:01Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Towards Cross-Granularity Few-Shot Learning: Coarse-to-Fine
Pseudo-Labeling with Visual-Semantic Meta-Embedding [13.063136901934865]
少ないショットラーニングは、テスト時に少数のサンプルしか持たない、新しいカテゴリに迅速に適応することを目的としている。
本稿では,より困難なシナリオ,すなわちクロスグラニュラリティ・グラニュラリティ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラ
画像埋め込みの類似性に応じて,各粗いクラスを擬似微細クラスにグリーディクラスタリングすることで,詳細なデータ分布を近似する。
論文 参考訳(メタデータ) (2020-07-11T03:44:21Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。