論文の概要: CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification
- arxiv url: http://arxiv.org/abs/2403.09281v1
- Date: Thu, 14 Mar 2024 11:08:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 20:57:06.602792
- Title: CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification
- Title(参考訳): CLIP-EBC: CLIPはブロックワイズ分類の強化によって正確にカウントできる
- Authors: Yiming Ma, Victor Sanchez, Tanaya Guha,
- Abstract要約: 本稿では,CLIPをベースとしたクラウドカウンティングモデルについて紹介する。
モデルに依存しないEBCフレームワークの中で、密度マップを生成することができるCLIP-EBCを導入した。
- 参考スコア(独自算出の注目度): 29.570935239024138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The CLIP (Contrastive Language-Image Pretraining) model has exhibited outstanding performance in recognition problems, such as zero-shot image classification and object detection. However, its ability to count remains understudied due to the inherent challenges of transforming counting--a regression task--into a recognition task. In this paper, we investigate CLIP's potential in counting, focusing specifically on estimating crowd sizes. Existing classification-based crowd-counting methods have encountered issues, including inappropriate discretization strategies, which impede the application of CLIP and result in suboptimal performance. To address these challenges, we propose the Enhanced Blockwise Classification (EBC) framework. In contrast to previous methods, EBC relies on integer-valued bins that facilitate the learning of robust decision boundaries. Within our model-agnostic EBC framework, we introduce CLIP-EBC, the first fully CLIP-based crowd-counting model capable of generating density maps. Comprehensive evaluations across diverse crowd-counting datasets demonstrate the state-of-the-art performance of our methods. Particularly, EBC can improve existing models by up to 76.9%. Moreover, our CLIP-EBC model surpasses current crowd-counting methods, achieving mean absolute errors of 55.0 and 6.3 on ShanghaiTech part A and part B datasets, respectively. The code will be made publicly available.
- Abstract(参考訳): CLIP(Contrastive Language- Image Pretraining)モデルは、ゼロショット画像分類やオブジェクト検出などの認識問題において優れた性能を示した。
しかし、カウントする能力は、カウントする本来の課題、つまりレグレッションタスクが認識タスクに変換されるため、まだ検討されていない。
本稿では,CLIPの数え方の可能性について検討し,特に群集の大きさを推定することに焦点を当てた。
既存の分類に基づくクラウドカウンティング手法では,CLIPの適用を阻害する不適切な識別戦略などの問題が発生し,その結果,準最適性能が得られた。
これらの課題に対処するために、拡張ブロックワイズ分類(EBC)フレームワークを提案する。
従来の手法とは対照的に、EBCは堅牢な決定境界の学習を容易にする整数値のビンに依存している。
モデルに依存しないEBCフレームワークの中で、密度マップを生成することができるCLIP-EBCを導入した。
様々なクラウドカウンティングデータセットの包括的評価は,我々の手法の最先端性能を示している。
特にEBCは既存のモデルを76.9%改善できる。
さらに,我々のCLIP-EBCモデルは,上海工科大学のA部とB部で55.0と6.3の平均絶対誤差を達成した。
コードは公開されます。
関連論文リスト
- Bayesian Exploration of Pre-trained Models for Low-shot Image Classification [14.211305168954594]
本研究はガウス過程に基づくシンプルで効果的な確率的モデルアンサンブルフレームワークを提案する。
平均関数をCLIPとカーネル関数で指定することで,事前知識の統合を実現する。
提案手法は,予測性能に関する競争アンサンブルベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-03-30T10:25:28Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - An Empirical Study of CLIP for Text-based Person Search [51.94743973155648]
テキストベースPerson Search (TBPS) は、自然言語による人物画像の検索を目的としている。
Contrastive Language Image Pretraining (CLIP)は、多種多様なモダル下流タスクにおいて、多種多様なモダル横断視覚言語事前訓練モデルである。
本稿では,TBPSタスクに対するCLIPの総合的研究を初めて行おうとする。
論文 参考訳(メタデータ) (2023-08-19T15:08:10Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - Automated Imbalanced Classification via Layered Learning [0.734084539365505]
トレーニングインスタンスのクラス分布のバランスをとるために再サンプリング戦略を適用することは、これらの問題に対処するための一般的なアプローチである。
多くの最先端の手法は、再サンプリングプロセスを実行するために決定境界に近い関心の事例を見つける。
オーバーサンプリングは、少数層からインスタンスに含まれる情報を伝播することで、過度に適合する可能性を高める可能性がある。
論文 参考訳(メタデータ) (2022-05-05T10:32:24Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。