論文の概要: CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification
- arxiv url: http://arxiv.org/abs/2403.09281v2
- Date: Fri, 16 Aug 2024 11:10:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 20:24:02.569969
- Title: CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification
- Title(参考訳): CLIP-EBC: CLIPはブロックワイズ分類の強化によって正確にカウントできる
- Authors: Yiming Ma, Victor Sanchez, Tanaya Guha,
- Abstract要約: CLIP-EBC(CLIP-EBC)を提案する。
我々のEBCフレームワークは、UCF-QNRFデータセットで44.5%まで既存の分類ベースの手法を改善することができる。
CLIP-EBCは、NWPU-Crowdテストセットの最先端のパフォーマンスを実現し、MAEは58.2、RMSEは268.5で、以前のベストメソッドであるSTEERERよりも8.6%と13.3%改善した。
- 参考スコア(独自算出の注目度): 29.570935239024138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose CLIP-EBC, the first fully CLIP-based model for accurate crowd density estimation. While the CLIP model has demonstrated remarkable success in addressing recognition tasks such as zero-shot image classification, its potential for counting has been largely unexplored due to the inherent challenges in transforming a regression problem, such as counting, into a recognition task. In this work, we investigate and enhance CLIP's ability to count, focusing specifically on the task of estimating crowd sizes from images. Existing classification-based crowd-counting frameworks have significant limitations, including the quantization of count values into bordering real-valued bins and the sole focus on classification errors. These practices result in label ambiguity near the shared borders and inaccurate prediction of count values. Hence, directly applying CLIP within these frameworks may yield suboptimal performance. To address these challenges, we first propose the Enhanced Blockwise Classification (EBC) framework. Unlike previous methods, EBC utilizes integer-valued bins, effectively reducing ambiguity near bin boundaries. Additionally, it incorporates a regression loss based on density maps to improve the prediction of count values. Within our backbone-agnostic EBC framework, we then introduce CLIP-EBC to fully leverage CLIP's recognition capabilities for this task. Extensive experiments demonstrate the effectiveness of EBC and the competitive performance of CLIP-EBC. Specifically, our EBC framework can improve existing classification-based methods by up to 44.5% on the UCF-QNRF dataset, and CLIP-EBC achieves state-of-the-art performance on the NWPU-Crowd test set, with an MAE of 58.2 and an RMSE of 268.5, representing improvements of 8.6% and 13.3% over the previous best method, STEERER. The code and weights are available at https://github.com/Yiming-M/CLIP-EBC.
- Abstract(参考訳): CLIP-EBC(CLIP-EBC)を提案する。
CLIPモデルは、ゼロショット画像分類などの認識タスクに対処する上で、顕著な成功を収めてきたが、カウントなどの回帰問題を認識タスクに変換するという固有の課題のために、そのカウントの可能性はほとんど解明されていない。
本研究は,画像から群衆の大きさを推定する作業を中心に,CLIPのカウント能力について検討・強化するものである。
既存の分類に基づくクラウドカウントフレームワークには、カウント値を境界となる実値のビンに量子化することや、分類エラーにのみフォーカスすることなど、大きな制限がある。
これらのプラクティスは、共有境界付近のラベルの曖昧さとカウント値の不正確な予測をもたらす。
したがって、これらのフレームワークにCLIPを直接適用すれば、準最適性能が得られる可能性がある。
これらの課題に対処するために、まず、拡張ブロックワイズ分類(EBC)フレームワークを提案する。
従来の方法とは異なり、EBCは整数値のビンを使い、ビンの境界付近の曖昧さを効果的に低減している。
さらに、密度マップに基づく回帰損失を取り入れ、カウント値の予測を改善する。
バックボーンに依存しないEBCフレームワークの中で、このタスクにCLIPの認識能力をフル活用するためにCLIP-EBCを導入します。
大規模な実験は、EBCの有効性とCLIP-EBCの競争性能を示す。
具体的には、我々のEBCフレームワークは、UCF-QNRFデータセットで44.5%の既存の分類ベースの手法を改善でき、CLIP-EBCはNWPU-Crowdテストセットで最先端のパフォーマンスを実現し、MAEは58.2、RMSEは268.5で、以前のベストメソッドであるSTEERよりも8.6%と13.3%改善した。
コードとウェイトはhttps://github.com/Yiming-M/CLIP-EBCで公開されている。
関連論文リスト
- Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation [38.16802763051431]
トレーニング不要なセマンティックセグメンテーション戦略であるCLIPtraseを提案する。
パッチ間の自己相関を補正することで、局所的な特徴認識を高める。
実験の結果、CLIPよりも平均して9つのセグメンテーションベンチマークで22.3%先行していることがわかった。
論文 参考訳(メタデータ) (2024-07-11T08:12:16Z) - Bayesian Exploration of Pre-trained Models for Low-shot Image Classification [14.211305168954594]
本研究はガウス過程に基づくシンプルで効果的な確率的モデルアンサンブルフレームワークを提案する。
平均関数をCLIPとカーネル関数で指定することで,事前知識の統合を実現する。
提案手法は,予測性能に関する競争アンサンブルベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-03-30T10:25:28Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - An Empirical Study of CLIP for Text-based Person Search [51.94743973155648]
テキストベースPerson Search (TBPS) は、自然言語による人物画像の検索を目的としている。
Contrastive Language Image Pretraining (CLIP)は、多種多様なモダル下流タスクにおいて、多種多様なモダル横断視覚言語事前訓練モデルである。
本稿では,TBPSタスクに対するCLIPの総合的研究を初めて行おうとする。
論文 参考訳(メタデータ) (2023-08-19T15:08:10Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - Automated Imbalanced Classification via Layered Learning [0.734084539365505]
トレーニングインスタンスのクラス分布のバランスをとるために再サンプリング戦略を適用することは、これらの問題に対処するための一般的なアプローチである。
多くの最先端の手法は、再サンプリングプロセスを実行するために決定境界に近い関心の事例を見つける。
オーバーサンプリングは、少数層からインスタンスに含まれる情報を伝播することで、過度に適合する可能性を高める可能性がある。
論文 参考訳(メタデータ) (2022-05-05T10:32:24Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。