論文の概要: CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification
- arxiv url: http://arxiv.org/abs/2403.09281v1
- Date: Thu, 14 Mar 2024 11:08:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 20:57:06.602792
- Title: CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification
- Title(参考訳): CLIP-EBC: CLIPはブロックワイズ分類の強化によって正確にカウントできる
- Authors: Yiming Ma, Victor Sanchez, Tanaya Guha,
- Abstract要約: 本稿では,CLIPをベースとしたクラウドカウンティングモデルについて紹介する。
モデルに依存しないEBCフレームワークの中で、密度マップを生成することができるCLIP-EBCを導入した。
- 参考スコア(独自算出の注目度): 29.570935239024138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The CLIP (Contrastive Language-Image Pretraining) model has exhibited outstanding performance in recognition problems, such as zero-shot image classification and object detection. However, its ability to count remains understudied due to the inherent challenges of transforming counting--a regression task--into a recognition task. In this paper, we investigate CLIP's potential in counting, focusing specifically on estimating crowd sizes. Existing classification-based crowd-counting methods have encountered issues, including inappropriate discretization strategies, which impede the application of CLIP and result in suboptimal performance. To address these challenges, we propose the Enhanced Blockwise Classification (EBC) framework. In contrast to previous methods, EBC relies on integer-valued bins that facilitate the learning of robust decision boundaries. Within our model-agnostic EBC framework, we introduce CLIP-EBC, the first fully CLIP-based crowd-counting model capable of generating density maps. Comprehensive evaluations across diverse crowd-counting datasets demonstrate the state-of-the-art performance of our methods. Particularly, EBC can improve existing models by up to 76.9%. Moreover, our CLIP-EBC model surpasses current crowd-counting methods, achieving mean absolute errors of 55.0 and 6.3 on ShanghaiTech part A and part B datasets, respectively. The code will be made publicly available.
- Abstract(参考訳): CLIP(Contrastive Language- Image Pretraining)モデルは、ゼロショット画像分類やオブジェクト検出などの認識問題において優れた性能を示した。
しかし、カウントする能力は、カウントする本来の課題、つまりレグレッションタスクが認識タスクに変換されるため、まだ検討されていない。
本稿では,CLIPの数え方の可能性について検討し,特に群集の大きさを推定することに焦点を当てた。
既存の分類に基づくクラウドカウンティング手法では,CLIPの適用を阻害する不適切な識別戦略などの問題が発生し,その結果,準最適性能が得られた。
これらの課題に対処するために、拡張ブロックワイズ分類(EBC)フレームワークを提案する。
従来の手法とは対照的に、EBCは堅牢な決定境界の学習を容易にする整数値のビンに依存している。
モデルに依存しないEBCフレームワークの中で、密度マップを生成することができるCLIP-EBCを導入した。
様々なクラウドカウンティングデータセットの包括的評価は,我々の手法の最先端性能を示している。
特にEBCは既存のモデルを76.9%改善できる。
さらに,我々のCLIP-EBCモデルは,上海工科大学のA部とB部で55.0と6.3の平均絶対誤差を達成した。
コードは公開されます。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - Is Less More? Exploring Token Condensation as Training-free Adaptation for CLIP [43.09801987385207]
比較言語画像事前訓練(CLIP)は画像分類において顕著な一般化能力を示した。
CLIPは、ゼロショット推論中にダウンストリームデータセットのパフォーマンス低下に遭遇することがある。
このようなケースでCLIPのパフォーマンス低下に効率的に対処できる、トレーニング不要のアプローチはありますか?
論文 参考訳(メタデータ) (2024-10-16T07:13:35Z) - Token-based Decision Criteria Are Suboptimal in In-context Learning [2.2973949268669562]
In-Context Learning (ICL) は通常、手動で選択したラベルトークンの出力確率から分類基準を利用する。
このようなトークンベースの分類基準は、最適下決定境界につながると我々は主張する。
トークン確率を放棄し,LMの最後の隠蔽状態に最も近いセントロイドを使用するHiddenを提案する。
論文 参考訳(メタデータ) (2024-06-24T11:16:26Z) - AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning [50.78033979438031]
まず、ログバイアスの観点から、CLIPに基づく数ショット学習手法を統一的な定式化して分析する。
本稿では,鍵成分の分析に基づいて,CLIPに基づく複数ショット分類のための効果的なロジットバイアスを学習するための新しいAMU-Tuning法を提案する。
論文 参考訳(メタデータ) (2024-04-13T10:46:11Z) - Bayesian Exploration of Pre-trained Models for Low-shot Image Classification [14.211305168954594]
本研究はガウス過程に基づくシンプルで効果的な確率的モデルアンサンブルフレームワークを提案する。
平均関数をCLIPとカーネル関数で指定することで,事前知識の統合を実現する。
提案手法は,予測性能に関する競争アンサンブルベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-03-30T10:25:28Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised
Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。
近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。
本稿では, Pseudo Label Refinement フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T09:39:57Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z) - Re-Assessing the "Classify and Count" Quantification Method [88.60021378715636]
分類とカウント(CC)は、しばしば偏りのある推定器である。
以前の作業では、CCの適切に最適化されたバージョンを適切に使用できなかった。
最先端の手法に劣っているものの、ほぼ最先端の精度を実現している、と我々は主張する。
論文 参考訳(メタデータ) (2020-11-04T21:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。