論文の概要: CrowdCLIP: Unsupervised Crowd Counting via Vision-Language Model
- arxiv url: http://arxiv.org/abs/2304.04231v1
- Date: Sun, 9 Apr 2023 12:56:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 16:50:49.317565
- Title: CrowdCLIP: Unsupervised Crowd Counting via Vision-Language Model
- Title(参考訳): crowdclip:視覚言語モデルによる教師なし群衆数
- Authors: Dingkang Liang, Jiahao Xie, Zhikang Zou, Xiaoqing Ye, Wei Xu, Xiang
Bai
- Abstract要約: 監視された群衆のカウントは、高価な手作業によるラベリングに大きく依存している。
本稿では,クラウドカウントのための新しい非教師付きフレームワークであるCrowdCLIPを提案する。
CrowdCLIPは、従来の教師なしの最先端カウント手法と比較して、優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 60.30099369475092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised crowd counting relies heavily on costly manual labeling, which is
difficult and expensive, especially in dense scenes. To alleviate the problem,
we propose a novel unsupervised framework for crowd counting, named CrowdCLIP.
The core idea is built on two observations: 1) the recent contrastive
pre-trained vision-language model (CLIP) has presented impressive performance
on various downstream tasks; 2) there is a natural mapping between crowd
patches and count text. To the best of our knowledge, CrowdCLIP is the first to
investigate the vision language knowledge to solve the counting problem.
Specifically, in the training stage, we exploit the multi-modal ranking loss by
constructing ranking text prompts to match the size-sorted crowd patches to
guide the image encoder learning. In the testing stage, to deal with the
diversity of image patches, we propose a simple yet effective progressive
filtering strategy to first select the highly potential crowd patches and then
map them into the language space with various counting intervals. Extensive
experiments on five challenging datasets demonstrate that the proposed
CrowdCLIP achieves superior performance compared to previous unsupervised
state-of-the-art counting methods. Notably, CrowdCLIP even surpasses some
popular fully-supervised methods under the cross-dataset setting. The source
code will be available at https://github.com/dk-liang/CrowdCLIP.
- Abstract(参考訳): 監督された群衆のカウントは、特に密集したシーンでは困難で高価である、高価な手動ラベリングに大きく依存している。
この問題を軽減するために,CrowdCLIPという,クラウドカウントのための新しい非教師付きフレームワークを提案する。
中心となるアイデアは2つの観察に基づいています
1)近年のコントラスト学習前視覚言語モデル(CLIP)は、様々な下流タスクにおいて印象的な性能を示した。
2) 集団パッチとカウントテキストの間に自然なマッピングが存在する。
我々の知識を最大限に活用するために、CrowdCLIPは視覚言語知識を初めて調査し、数え上げ問題を解く。
具体的には,画像エンコーダ学習を指導するために,サイズ別群集パッチにマッチするランキングテキストプロンプトを構築し,マルチモーダルランキングロスを活用した。
テスト段階では,画像パッチの多様性に対処するために,まず高い潜在的な群集パッチを選択し,様々なカウント間隔で言語空間にマップする,単純かつ効果的なプログレッシブ・フィルタリング手法を提案する。
5つの挑戦的データセットに関する広範囲な実験により、提案手法が従来の教師なしの最先端カウント法よりも優れた性能を達成できることが示されている。
特に、CrowdCLIPは、クロスデータセット設定の下で、一般的な完全に教師されたメソッドを超越している。
ソースコードはhttps://github.com/dk-liang/CrowdCLIPで入手できる。
関連論文リスト
- VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Glance to Count: Learning to Rank with Anchors for Weakly-supervised
Crowd Counting [43.446730359817515]
群衆の画像は、おそらくアノテートする最も面倒なデータの一つだ。
本稿では,2つの画像と高コントラスト数の2値ランキングをトレーニング指導として活用する,弱教師付きセッティングを提案する。
本研究では,様々な管理手法の組み合わせを研究するために広範囲な実験を行い,提案手法が既存の弱い監督手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-05-29T13:39:34Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Completely Self-Supervised Crowd Counting via Distribution Matching [92.09218454377395]
我々は,密集した群集数に対するトレーニングモデルに対する完全な自己超越的アプローチを提案する。
トレーニングに必要な入力は、大量の未ラベルの群衆画像以外は、群衆数に近似した上限である。
提案手法は,自然群集が逆伝播の誤り信号を生成するために利用可能な電力法分布に従うという考え方に富む。
論文 参考訳(メタデータ) (2020-09-14T13:20:12Z) - Contrastive Visual-Linguistic Pretraining [48.88553854384866]
コントラスト的視覚言語事前学習は、コントラスト的学習に基づいて構築された視覚的自己監督的損失を構成する。
VQA, GQA, NLVR2などの下流タスクで評価した。
論文 参考訳(メタデータ) (2020-07-26T14:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。