論文の概要: CLIP-Count: Towards Text-Guided Zero-Shot Object Counting
- arxiv url: http://arxiv.org/abs/2305.07304v2
- Date: Thu, 10 Aug 2023 04:04:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 15:58:21.434870
- Title: CLIP-Count: Towards Text-Guided Zero-Shot Object Counting
- Title(参考訳): CLIP-Count: テキストガイドによるゼロショットオブジェクトカウントを目指す
- Authors: Ruixiang Jiang, Lingbo Liu, Changwen Chen
- Abstract要約: オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
- 参考スコア(独自算出の注目度): 32.07271723717184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in visual-language models have shown remarkable zero-shot
text-image matching ability that is transferable to downstream tasks such as
object detection and segmentation. Adapting these models for object counting,
however, remains a formidable challenge. In this study, we first investigate
transferring vision-language models (VLMs) for class-agnostic object counting.
Specifically, we propose CLIP-Count, the first end-to-end pipeline that
estimates density maps for open-vocabulary objects with text guidance in a
zero-shot manner. To align the text embedding with dense visual features, we
introduce a patch-text contrastive loss that guides the model to learn
informative patch-level visual representations for dense prediction. Moreover,
we design a hierarchical patch-text interaction module to propagate semantic
information across different resolution levels of visual features. Benefiting
from the full exploitation of the rich image-text alignment knowledge of
pretrained VLMs, our method effectively generates high-quality density maps for
objects-of-interest. Extensive experiments on FSC-147, CARPK, and ShanghaiTech
crowd counting datasets demonstrate state-of-the-art accuracy and
generalizability of the proposed method. Code is available:
https://github.com/songrise/CLIP-Count.
- Abstract(参考訳): 近年の視覚言語モデルの進歩は、オブジェクト検出やセグメンテーションなどの下流タスクに転送可能な、顕著なゼロショットテキストイメージマッチング能力を示している。
しかし、これらのモデルをオブジェクトカウントに適応させることは、依然として深刻な課題である。
本研究では,クラス非依存オブジェクトカウントのための視覚言語モデル(VLM)の転送について検討した。
具体的には、オープン語彙オブジェクトの密度マップをゼロショットで推定する最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを導くパッチテキストコントラスト損失を導入する。
さらに,視覚的特徴の異なる解像度レベルにわたって意味情報を伝達する階層的パッチ・テキストインタラクションモジュールを設計した。
事前学習したVLMのリッチな画像テキストアライメント知識のフル活用により,本手法は対象物に対する高品質な密度マップを効果的に生成する。
fsc-147, carpk, shanghaitech crowd counting datasets の広範な実験により,提案手法の精度と一般化性が示された。
コードは、https://github.com/songrise/CLIP-Count.comで入手できる。
関連論文リスト
- VisMin: Visual Minimal-Change Understanding [7.226130826257802]
我々は、textbfVisual textbfMinimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
CLIPとIdefics2を微調整する大規模なトレーニングデータセットを生成しました。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - GIST: Generating Image-Specific Text for Fine-grained Object
Classification [8.118079247462425]
GISTは、画像のみのデータセットから、画像固有のきめ細かいテキスト記述を生成する方法である。
提案手法は,CLIP線形プローブよりも平均4.1%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-07-21T02:47:18Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - OSIC: A New One-Stage Image Captioner Coined [38.46732302316068]
動的多視点学習を用いたワンステージ画像キャプタ(OSIC)を提案する。
リッチな特徴を得るためには、Swin Transformerを使ってマルチレベルの特徴を計算する。
キャプション用エンコーダのグローバルなモデリングを強化するために,新しい2次元精製モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-04T08:50:09Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。