論文の概要: Expanding Zero-Shot Object Counting with Rich Prompts
- arxiv url: http://arxiv.org/abs/2505.15398v1
- Date: Wed, 21 May 2025 11:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.53438
- Title: Expanding Zero-Shot Object Counting with Rich Prompts
- Title(参考訳): リッチプロンプトによるゼロショットオブジェクトカウントの拡大
- Authors: Huilin Zhu, Senyao Li, Jingling Yuan, Zhengwei Yang, Yu Guo, Wenxuan Liu, Xian Zhong, Shengfeng He,
- Abstract要約: RichCountは、テキストエンコーディングを強化し、画像内のオブジェクトとモデルの関連性を強化するトレーニング戦略である。
RichCountはゼロショットカウントにおける最先端のパフォーマンスを達成し、オープンワールドシナリオにおける見えないカテゴリへの一般化を著しく強化する。
- 参考スコア(独自算出の注目度): 34.63381285520037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Expanding pre-trained zero-shot counting models to handle unseen categories requires more than simply adding new prompts, as this approach does not achieve the necessary alignment between text and visual features for accurate counting. We introduce RichCount, the first framework to address these limitations, employing a two-stage training strategy that enhances text encoding and strengthens the model's association with objects in images. RichCount improves zero-shot counting for unseen categories through two key objectives: (1) enriching text features with a feed-forward network and adapter trained on text-image similarity, thereby creating robust, aligned representations; and (2) applying this refined encoder to counting tasks, enabling effective generalization across diverse prompts and complex images. In this manner, RichCount goes beyond simple prompt expansion to establish meaningful feature alignment that supports accurate counting across novel categories. Extensive experiments on three benchmark datasets demonstrate the effectiveness of RichCount, achieving state-of-the-art performance in zero-shot counting and significantly enhancing generalization to unseen categories in open-world scenarios.
- Abstract(参考訳): 未確認のカテゴリを扱うために事前訓練されたゼロショットカウントモデルを拡張するには、単に新しいプロンプトを追加する以上のことが必要である。
この制限に対処する最初のフレームワークであるRichCountを導入し、テキストエンコーディングを強化し、画像内のオブジェクトとの関連性を強化する2段階のトレーニング戦略を採用した。
RichCountは、(1)フィードフォワードネットワークによるテキスト特徴の強化と、テキスト画像の類似性を訓練したアダプタの強化により、堅牢で整合性のある表現が作成され、(2)タスクのカウントに改良されたエンコーダを適用し、多様なプロンプトや複雑な画像の効率的な一般化を可能にする。
このようにして、RichCountは、新しいカテゴリの正確なカウントをサポートする有意義な機能アライメントを確立するために、単純なプロンプト拡張を越えている。
3つのベンチマークデータセットに対する大規模な実験は、RichCountの有効性を示し、ゼロショットカウントにおける最先端のパフォーマンスを達成し、オープンワールドシナリオにおける目に見えないカテゴリへの大幅な一般化を実現した。
関連論文リスト
- SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting [20.21019748095159]
ゼロショットオブジェクトカウントは、テキスト記述によって指定された任意のオブジェクトカテゴリのインスタンスをカウントすることを目的としている。
我々は、事前学習した拡散モデルから、豊富な事前知識ときめ細かい視覚的理解を活用する拡散に基づくフレームワークT2ICountを提案する。
論文 参考訳(メタデータ) (2025-02-28T01:09:18Z) - CountGD: Multi-Modal Open-World Counting [54.88804890463491]
本稿では,画像中のオープン語彙オブジェクトの数値化の一般化と精度の向上を目的とする。
本稿では,最初のオープンワールドカウントモデルであるCountGDを紹介した。
論文 参考訳(メタデータ) (2024-07-05T16:20:48Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - CounTR: Transformer-based Generalised Visual Counting [94.54725247039441]
我々は任意の意味圏からオブジェクト数を数える計算モデルを開発し、任意の数の「例」を用いて計算する。
FSC-147のような大規模カウントベンチマークの徹底的なアブレーション研究を行い、ゼロおよび少数ショット設定の両方で最先端の性能を示す。
論文 参考訳(メタデータ) (2022-08-29T17:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。