論文の概要: CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification
- arxiv url: http://arxiv.org/abs/2403.09281v2
- Date: Fri, 16 Aug 2024 11:10:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 20:24:02.569969
- Title: CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification
- Title(参考訳): CLIP-EBC: CLIPはブロックワイズ分類の強化によって正確にカウントできる
- Authors: Yiming Ma, Victor Sanchez, Tanaya Guha,
- Abstract要約: CLIP-EBC(CLIP-EBC)を提案する。
我々のEBCフレームワークは、UCF-QNRFデータセットで44.5%まで既存の分類ベースの手法を改善することができる。
CLIP-EBCは、NWPU-Crowdテストセットの最先端のパフォーマンスを実現し、MAEは58.2、RMSEは268.5で、以前のベストメソッドであるSTEERERよりも8.6%と13.3%改善した。
- 参考スコア(独自算出の注目度): 29.570935239024138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose CLIP-EBC, the first fully CLIP-based model for accurate crowd density estimation. While the CLIP model has demonstrated remarkable success in addressing recognition tasks such as zero-shot image classification, its potential for counting has been largely unexplored due to the inherent challenges in transforming a regression problem, such as counting, into a recognition task. In this work, we investigate and enhance CLIP's ability to count, focusing specifically on the task of estimating crowd sizes from images. Existing classification-based crowd-counting frameworks have significant limitations, including the quantization of count values into bordering real-valued bins and the sole focus on classification errors. These practices result in label ambiguity near the shared borders and inaccurate prediction of count values. Hence, directly applying CLIP within these frameworks may yield suboptimal performance. To address these challenges, we first propose the Enhanced Blockwise Classification (EBC) framework. Unlike previous methods, EBC utilizes integer-valued bins, effectively reducing ambiguity near bin boundaries. Additionally, it incorporates a regression loss based on density maps to improve the prediction of count values. Within our backbone-agnostic EBC framework, we then introduce CLIP-EBC to fully leverage CLIP's recognition capabilities for this task. Extensive experiments demonstrate the effectiveness of EBC and the competitive performance of CLIP-EBC. Specifically, our EBC framework can improve existing classification-based methods by up to 44.5% on the UCF-QNRF dataset, and CLIP-EBC achieves state-of-the-art performance on the NWPU-Crowd test set, with an MAE of 58.2 and an RMSE of 268.5, representing improvements of 8.6% and 13.3% over the previous best method, STEERER. The code and weights are available at https://github.com/Yiming-M/CLIP-EBC.
- Abstract(参考訳): CLIP-EBC(CLIP-EBC)を提案する。
CLIPモデルは、ゼロショット画像分類などの認識タスクに対処する上で、顕著な成功を収めてきたが、カウントなどの回帰問題を認識タスクに変換するという固有の課題のために、そのカウントの可能性はほとんど解明されていない。
本研究は,画像から群衆の大きさを推定する作業を中心に,CLIPのカウント能力について検討・強化するものである。
既存の分類に基づくクラウドカウントフレームワークには、カウント値を境界となる実値のビンに量子化することや、分類エラーにのみフォーカスすることなど、大きな制限がある。
これらのプラクティスは、共有境界付近のラベルの曖昧さとカウント値の不正確な予測をもたらす。
したがって、これらのフレームワークにCLIPを直接適用すれば、準最適性能が得られる可能性がある。
これらの課題に対処するために、まず、拡張ブロックワイズ分類(EBC)フレームワークを提案する。
従来の方法とは異なり、EBCは整数値のビンを使い、ビンの境界付近の曖昧さを効果的に低減している。
さらに、密度マップに基づく回帰損失を取り入れ、カウント値の予測を改善する。
バックボーンに依存しないEBCフレームワークの中で、このタスクにCLIPの認識能力をフル活用するためにCLIP-EBCを導入します。
大規模な実験は、EBCの有効性とCLIP-EBCの競争性能を示す。
具体的には、我々のEBCフレームワークは、UCF-QNRFデータセットで44.5%の既存の分類ベースの手法を改善でき、CLIP-EBCはNWPU-Crowdテストセットで最先端のパフォーマンスを実現し、MAEは58.2、RMSEは268.5で、以前のベストメソッドであるSTEERよりも8.6%と13.3%改善した。
コードとウェイトはhttps://github.com/Yiming-M/CLIP-EBCで公開されている。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - Is Less More? Exploring Token Condensation as Training-free Adaptation for CLIP [43.09801987385207]
比較言語画像事前訓練(CLIP)は画像分類において顕著な一般化能力を示した。
CLIPは、ゼロショット推論中にダウンストリームデータセットのパフォーマンス低下に遭遇することがある。
このようなケースでCLIPのパフォーマンス低下に効率的に対処できる、トレーニング不要のアプローチはありますか?
論文 参考訳(メタデータ) (2024-10-16T07:13:35Z) - Token-based Decision Criteria Are Suboptimal in In-context Learning [2.2973949268669562]
In-Context Learning (ICL) は通常、手動で選択したラベルトークンの出力確率から分類基準を利用する。
このようなトークンベースの分類基準は、最適下決定境界につながると我々は主張する。
トークン確率を放棄し,LMの最後の隠蔽状態に最も近いセントロイドを使用するHiddenを提案する。
論文 参考訳(メタデータ) (2024-06-24T11:16:26Z) - AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning [50.78033979438031]
まず、ログバイアスの観点から、CLIPに基づく数ショット学習手法を統一的な定式化して分析する。
本稿では,鍵成分の分析に基づいて,CLIPに基づく複数ショット分類のための効果的なロジットバイアスを学習するための新しいAMU-Tuning法を提案する。
論文 参考訳(メタデータ) (2024-04-13T10:46:11Z) - Bayesian Exploration of Pre-trained Models for Low-shot Image Classification [14.211305168954594]
本研究はガウス過程に基づくシンプルで効果的な確率的モデルアンサンブルフレームワークを提案する。
平均関数をCLIPとカーネル関数で指定することで,事前知識の統合を実現する。
提案手法は,予測性能に関する競争アンサンブルベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-03-30T10:25:28Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised
Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。
近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。
本稿では, Pseudo Label Refinement フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T09:39:57Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z) - Re-Assessing the "Classify and Count" Quantification Method [88.60021378715636]
分類とカウント(CC)は、しばしば偏りのある推定器である。
以前の作業では、CCの適切に最適化されたバージョンを適切に使用できなかった。
最先端の手法に劣っているものの、ほぼ最先端の精度を実現している、と我々は主張する。
論文 参考訳(メタデータ) (2020-11-04T21:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。