論文の概要: Just Say the Word: Annotation-Free Fine-Grained Object Counting
- arxiv url: http://arxiv.org/abs/2504.11705v3
- Date: Thu, 11 Sep 2025 21:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 14:04:02.94812
- Title: Just Say the Word: Annotation-Free Fine-Grained Object Counting
- Title(参考訳): 言い換えれば、アノテーションなしの細粒度オブジェクトカウント
- Authors: Adriano D'Alessandro, Ali Mahdavi-Amiri, Ghassan Hamarneh,
- Abstract要約: 細粒度オブジェクトカウントは、クラスに依存しないカウントモデルにとって依然として大きな課題である。
カテゴリ名を与えられた場合、合成画像と擬似ラベルを用いてプロンプトからコンパクトな概念を組み込む。
この埋め込み条件は、凍結したカウンタからの生のオーバーカウントを正確にカテゴリー別推定に洗練する特殊化モジュールである。
- 参考スコア(独自算出の注目度): 22.31750687552324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained object counting remains a major challenge for class-agnostic counting models, which overcount visually similar but incorrect instances (e.g., jalape\~no vs. poblano). Addressing this by annotating new data and fully retraining the model is time-consuming and does not guarantee generalization to additional novel categories at test time. Instead, we propose an alternative paradigm: Given a category name, tune a compact concept embedding derived from the prompt using synthetic images and pseudo-labels generated by a text-to-image diffusion model. This embedding conditions a specialization module that refines raw overcounts from any frozen counter into accurate, category-specific estimates\textemdash without requiring real images or human annotations. We validate our approach on \textsc{Lookalikes}, a challenging new benchmark containing 1,037 images across 27 fine-grained subcategories, and show substantial improvements over strong baselines. Code will be released upon acceptance. Dataset - https://dalessandro.dev/datasets/lookalikes/
- Abstract(参考訳): 細粒度オブジェクトカウントは、視覚的に類似しているが間違ったインスタンス(例えば、jalape\~no vs. poblano)をオーバーカウントするクラス非依存のカウントモデルにとって、依然として大きな課題である。
新しいデータをアノテートしてモデルを完全に再トレーニングすることでこの問題に対処するには時間がかかり、テスト時に新たなカテゴリへの一般化を保証しません。
カテゴリ名を与えられた場合、テキストから画像への拡散モデルによって生成された合成画像と擬似ラベルを用いて、プロンプトから導かれるコンパクトな概念をチューンする。
この埋め込み条件は、凍結したカウンタからの生のオーバーカウントを、実際のイメージや人間のアノテーションを必要とせずに、正確にカテゴリ固有の評価\textemdashに洗練する特殊化モジュールである。
我々は,27の細粒度サブカテゴリにわたる1,037のイメージを含む挑戦的な新しいベンチマークであるtextsc{Lookalikes} に対するアプローチを検証するとともに,強いベースラインよりも大幅に改善されたことを示す。
コードは受理時にリリースされる。
Dataset - https://dalessandro.dev/datasets/lookalikes/
関連論文リスト
- Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings [65.31723739561151]
埋め込みは、エンコードされたセマンティクス内のきめ細かいエンティティやイベントを認識できないかもしれない。
本稿では,新たな評価データセットであるCapRetrievalを導入し,文節は画像キャプションであり,クエリはエンティティやイベントの概念を多種多様な形式でターゲットとするフレーズである。
我々は提案したデータ生成戦略でエンコーダを微調整し、小さな0.1Bエンコーダで最先端の7Bモデルを上回る性能を実現した。
論文 参考訳(メタデータ) (2025-06-10T09:00:33Z) - Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - A Generic Method for Fine-grained Category Discovery in Natural Language Texts [38.297873969795546]
そこで本研究では,新たな目的関数によって導かれる意味的類似テキストの微細なクラスタをうまく検出する手法を提案する。
この方法は対数空間における意味的類似性を利用してユークリッド空間のサンプル分布を導く。
また,リアルタイムアプリケーションをサポートするセントロイド推論機構を提案する。
論文 参考訳(メタデータ) (2024-06-18T23:27:46Z) - Understanding Visual Concepts Across Models [45.18188726287581]
テキスト・ツー・イメージ生成、オープン・セット・オブジェクト検出、ゼロショット分類において、3つの最先端モデルの大規模解析を行う。
任意の概念を生成し、検出し、分類する事前埋め込みに対して、$epsilon$-ball内で摂動を見つける。
これらの新しい埋め込みが新しいモデルにスプリケートされると、元のモデルをターゲットにした微調整が失われる。
論文 参考訳(メタデータ) (2024-06-11T17:40:31Z) - Liberating Seen Classes: Boosting Few-Shot and Zero-Shot Text Classification via Anchor Generation and Classification Reframing [38.84431954053434]
短いショットとゼロショットのテキスト分類は、ラベル付きサンプルやラベル付きサンプルが全くない新しいクラスからのサンプルを認識することを目的としている。
少数ショットとゼロショットのテキスト分類のためのシンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-05-06T15:38:32Z) - Generative Multi-modal Models are Good Class-Incremental Learners [51.5648732517187]
クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。
提案手法は適応生成モデルを用いて画像のラベルを直接生成する。
Few-shot CIL設定では、現在の最先端のすべてのメソッドに対して少なくとも14%精度が向上し、忘れてはならない。
論文 参考訳(メタデータ) (2024-03-27T09:21:07Z) - A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-15T12:05:44Z) - SynCDR : Training Cross Domain Retrieval Models with Synthetic Data [69.26882668598587]
クロスドメイン検索では、同じ意味圏から2つの視覚領域にまたがるイメージを識別するためにモデルが必要である。
我々は、これらの欠落したカテゴリの例を満たすために、ドメイン間で合成データを生成する方法を示す。
最高のSynCDRモデルは、先行技術よりも最大15%パフォーマンスが向上します。
論文 参考訳(メタデータ) (2023-12-31T08:06:53Z) - Semantic Generative Augmentations for Few-Shot Counting [0.0]
合成データは,クラス非依存のカウントにどのように役立つかを検討する。
本稿では,安定拡散の二重条件付けをプロンプトと密度マップの両方で行うことを提案する。
実験により, 多様な生成戦略により, 2つの最近の数理モデルと数理モデルとのカウント精度が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2023-10-26T11:42:48Z) - Semantic-Promoted Debiasing and Background Disambiguation for Zero-Shot
Instance Segmentation [13.001629605405954]
Zero-shotインスタンスセグメンテーションは、トレーニングサンプルを使わずに、目に見えないカテゴリのオブジェクトを検出し、正確にセグメンテーションすることを目的としている。
セマンティック・プロモート・デバイアスと背景曖昧化を併用したD$2$Zeroを提案する。
背景の曖昧さは、背景に対する新しいオブジェクトの誤認を避けるために、画像適応的な背景表現を生成する。
論文 参考訳(メタデータ) (2023-05-22T16:00:01Z) - Incremental Generalized Category Discovery [26.028970894707204]
インクリメンタル一般化カテゴリー発見(IGCD)の課題を探る
これは、以前に見られたカテゴリから画像を正しく分類できるモデルを開発することを目的としている、挑戦的なカテゴリインクリメンタルな学習環境である。
本稿では,非パラメトリック分類と効率的な画像サンプリングを組み合わせたIGCDの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-27T16:27:11Z) - What does a platypus look like? Generating customized prompts for
zero-shot image classification [52.92839995002636]
この研究は、タスクドメインの明示的な知識に頼ることなく、より高精度なプロンプトを生成するシンプルな方法を導入する。
我々は,大言語モデル(LLM)に含まれる知識を活用し,画像カテゴリの重要な識別特性を含む多くの記述文を生成する。
このアプローチは、ImageNetの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を改善する。
論文 参考訳(メタデータ) (2022-09-07T17:27:08Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Coarse2Fine: Fine-grained Text Classification on Coarsely-grained
Annotated Data [22.81068960545234]
本稿では,粗い注釈付きデータに対して,きめ細かい分類を行うことを目的とした,粗い粒度分類と呼ばれる新しい問題を提案する。
新しいきめ細かい人間のアノテーションを求める代わりに、ラベル表面の名前のみを人間の手引きとして活用することにしました。
我々のフレームワークは、微調整された生成モデルを用いて、擬似学習データをサンプリングし、分類器を訓練し、実際のラベルなしデータをブートストラップしてモデル修正を行う。
論文 参考訳(メタデータ) (2021-09-22T17:29:01Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Few Shot Learning With No Labels [28.91314299138311]
数少ない学習者は、少数のトレーニングサンプルしか与えていない新しいカテゴリを認識することを目指している。
主な課題は、限られたデータに過度に適合することを避け、新しいクラスへの優れた一般化を確実にすることだ。
既存の文献は、ラベル要件を新しいクラスからベースクラスに単純にシフトすることで、大量の注釈付きデータを利用する。
論文 参考訳(メタデータ) (2020-12-26T14:40:12Z) - One-bit Supervision for Image Classification [121.87598671087494]
1ビットの監視は、不完全なアノテーションから学ぶための新しい設定である。
負ラベル抑圧を既成の半教師付き学習アルゴリズムに組み込んだ多段階学習パラダイムを提案する。
論文 参考訳(メタデータ) (2020-09-14T03:06:23Z) - Towards Cross-Granularity Few-Shot Learning: Coarse-to-Fine
Pseudo-Labeling with Visual-Semantic Meta-Embedding [13.063136901934865]
少ないショットラーニングは、テスト時に少数のサンプルしか持たない、新しいカテゴリに迅速に適応することを目的としている。
本稿では,より困難なシナリオ,すなわちクロスグラニュラリティ・グラニュラリティ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラ
画像埋め込みの類似性に応じて,各粗いクラスを擬似微細クラスにグリーディクラスタリングすることで,詳細なデータ分布を近似する。
論文 参考訳(メタデータ) (2020-07-11T03:44:21Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。