論文の概要: CLIP-Count: Towards Text-Guided Zero-Shot Object Counting
- arxiv url: http://arxiv.org/abs/2305.07304v1
- Date: Fri, 12 May 2023 08:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 13:47:59.600116
- Title: CLIP-Count: Towards Text-Guided Zero-Shot Object Counting
- Title(参考訳): CLIP-Count: テキストガイドによるゼロショットオブジェクトカウントを目指す
- Authors: Ruixiang Jiang, Lingbo Liu, Changwen Chen
- Abstract要約: クラス非依存オブジェクトカウントのための視覚言語モデルの転送を初めて行う。
オープン語彙オブジェクトの密度マップをゼロショットで推定する新しいパイプラインであるCLIP-Countを提案する。
提案手法は、ゼロショットオブジェクトカウントのための最先端の精度と一般化性を実現する。
- 参考スコア(独自算出の注目度): 32.07271723717184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in visual-language models have shown remarkable zero-shot
text-image matching ability that is transferable to down-stream tasks such as
object detection and segmentation. However, adapting these models for object
counting, which involves estimating the number of objects in an image, remains
a formidable challenge. In this study, we conduct the first exploration of
transferring visual-language models for class-agnostic object counting.
Specifically, we propose CLIP-Count, a novel pipeline that estimates density
maps for open-vocabulary objects with text guidance in a zero-shot manner,
without requiring any finetuning on specific object classes. To align the text
embedding with dense image features, we introduce a patch-text contrastive loss
that guides the model to learn informative patch-level image representations
for dense prediction. Moreover, we design a hierarchical patch-text interaction
module that propagates semantic information across different resolution levels
of image features. Benefiting from the full exploitation of the rich image-text
alignment knowledge of pretrained visual-language models, our method
effectively generates high-quality density maps for objects-of-interest.
Extensive experiments on FSC-147, CARPK, and ShanghaiTech crowd counting
datasets demonstrate that our proposed method achieves state-of-the-art
accuracy and generalizability for zero-shot object counting. Project page at
https://github.com/songrise/CLIP-Count
- Abstract(参考訳): 近年の視覚言語モデルの進歩は、オブジェクト検出やセグメンテーションなどの下流タスクに転送可能な、顕著なゼロショットテキストイメージマッチング能力を示している。
しかし、画像内のオブジェクトの数を推定するオブジェクトカウントにこれらのモデルを適用することは、依然として大きな課題である。
本研究では,クラス非依存オブジェクトカウントのための視覚言語モデルの転送を初めて行う。
具体的には、特定のオブジェクトクラスを微調整することなく、ゼロショットでテキストガイダンスでオープン語彙オブジェクトの密度マップを推定する新しいパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを高精細な画像特徴と整合させるために,モデルが高精細な予測のために有益なパッチレベルイメージ表現を学ぶための,パッチテキストコントラストロスを導入する。
さらに,画像特徴の異なる解像度レベルにまたがる意味情報を伝達する階層的なパッチテキストインタラクションモジュールを設計した。
事前学習されたビジュアル言語モデルのリッチな画像テキストアライメント知識をフル活用することで,目的物に対する高品質な密度マップを効果的に生成する。
FSC-147, CARPK, 上海技術クラウドカウントデータセットの大規模実験により, 提案手法がゼロショットオブジェクトカウントにおける最先端の精度と一般化性を実現することを示す。
プロジェクトページ: https://github.com/songrise/clip-count
関連論文リスト
- VisMin: Visual Minimal-Change Understanding [7.226130826257802]
我々は、textbfVisual textbfMinimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
CLIPとIdefics2を微調整する大規模なトレーニングデータセットを生成しました。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - GIST: Generating Image-Specific Text for Fine-grained Object
Classification [8.118079247462425]
GISTは、画像のみのデータセットから、画像固有のきめ細かいテキスト記述を生成する方法である。
提案手法は,CLIP線形プローブよりも平均4.1%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-07-21T02:47:18Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - OSIC: A New One-Stage Image Captioner Coined [38.46732302316068]
動的多視点学習を用いたワンステージ画像キャプタ(OSIC)を提案する。
リッチな特徴を得るためには、Swin Transformerを使ってマルチレベルの特徴を計算する。
キャプション用エンコーダのグローバルなモデリングを強化するために,新しい2次元精製モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-04T08:50:09Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。