論文の概要: A Simple-but-effective Baseline for Training-free Class-Agnostic
Counting
- arxiv url: http://arxiv.org/abs/2403.01418v1
- Date: Sun, 3 Mar 2024 07:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:37:46.079847
- Title: A Simple-but-effective Baseline for Training-free Class-Agnostic
Counting
- Title(参考訳): トレーニングフリークラス非依存カウントのための単純だが効果的なベースライン
- Authors: Yuhao Lin, Haiming Xu, Lingqiao Liu, Javen Qinfeng Shi
- Abstract要約: CAC(Class-Agnostic Counting)は、いくつかの参照例だけで、与えられた画像内のオブジェクトを正確にカウントすることを目指している。
近年の取り組みでは、既存の基礎モデルを利用することで、トレーニングなしでこれを達成できることが示されている。
我々は、このパフォーマンスギャップを効果的に橋渡しし、強力なベースラインとして機能する、トレーニング不要のソリューションを提案する。
- 参考スコア(独自算出の注目度): 30.792198686654075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Class-Agnostic Counting (CAC) seeks to accurately count objects in a given
image with only a few reference examples. While previous methods achieving this
relied on additional training, recent efforts have shown that it's possible to
accomplish this without training by utilizing pre-existing foundation models,
particularly the Segment Anything Model (SAM), for counting via instance-level
segmentation. Although promising, current training-free methods still lag
behind their training-based counterparts in terms of performance. In this
research, we present a straightforward training-free solution that effectively
bridges this performance gap, serving as a strong baseline. The primary
contribution of our work lies in the discovery of four key technologies that
can enhance performance. Specifically, we suggest employing a superpixel
algorithm to generate more precise initial point prompts, utilizing an image
encoder with richer semantic knowledge to replace the SAM encoder for
representing candidate objects, and adopting a multiscale mechanism and a
transductive prototype scheme to update the representation of reference
examples. By combining these four technologies, our approach achieves
significant improvements over existing training-free methods and delivers
performance on par with training-based ones.
- Abstract(参考訳): CAC(Class-Agnostic Counting)は、いくつかの参照例だけで、与えられた画像内のオブジェクトを正確にカウントする。
これまでの方法は追加のトレーニングに頼っていたが、近年の取り組みは、既存の基礎モデル、特にSAM(Segment Anything Model)を利用して、インスタンスレベルのセグメンテーションを通じてカウントすることで、トレーニングなしでこれを達成することができることを示した。
有望ではあるが、現在のトレーニングフリーメソッドは、パフォーマンスという点ではトレーニングベースのメソッドよりも遅れている。
本研究では,このパフォーマンスギャップを効果的に橋渡しし,強力なベースラインとして機能する,簡単なトレーニングフリーなソリューションを提案する。
私たちの仕事の主な貢献は、パフォーマンスを向上させる4つの重要な技術の発見にあります。
具体的には、より正確な初期点プロンプトを生成するためにスーパーピクセルアルゴリズムを使用し、より豊かな意味知識を持つイメージエンコーダを使用して候補オブジェクトを表すsamエンコーダを置き換えることを提案し、参照例の表現を更新するためにマルチスケール機構とトランスダクティブプロトタイプスキームを採用する。
これら4つの技術を組み合わせることで、既存のトレーニングフリーメソッドよりも大幅な改善を達成し、トレーニングベースの手法と同等のパフォーマンスを実現します。
関連論文リスト
- Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - A Simple Baseline that Questions the Use of Pretrained-Models in
Continual Learning [30.023047201419825]
いくつかの手法は、事前訓練された表現に基づいて連続学習機構を設計し、継続学習のトレーニング中に最小限のアップデートやバックボーンモデルの更新を許可しない。
我々は、事前訓練された特徴抽出器自体が、Split-CIFAR100およびCoRe 50ベンチマーク上での競争力や継続学習性能を達成するのに十分な強度を持つと論じる。
このベースラインは10-Split-CIFAR-100で88.53%を達成した。
論文 参考訳(メタデータ) (2022-10-10T04:19:53Z) - Beyond Simple Meta-Learning: Multi-Purpose Models for Multi-Domain,
Active and Continual Few-Shot Learning [41.07029317930986]
低ラベル方式で動作するモデルの分散感応クラスを提案する。
最初の手法であるSimple CNAPSは階層的に正規化されたマハラノビス距離に基づく分類器を用いる。
我々はさらに、このアプローチをトランスダクティブ学習環境に拡張し、トランスダクティブCNAPSを提案する。
論文 参考訳(メタデータ) (2022-01-13T18:59:02Z) - Label, Verify, Correct: A Simple Few Shot Object Detection Method [93.84801062680786]
トレーニングセットから高品質な擬似アノテーションを抽出するための簡単な擬似ラベリング手法を提案する。
擬似ラベリングプロセスの精度を向上させるための2つの新しい手法を提案する。
提案手法は,既存手法と比較して,最先端ないし第2の性能を実現する。
論文 参考訳(メタデータ) (2021-12-10T18:59:06Z) - SML: Semantic Meta-learning for Few-shot Semantic Segmentation [27.773396307292497]
本稿では,提案するメタ学習フレームワークSemantic Meta-Learningを提案する。
さらに,クラスレベルのセマンティック情報を取り入れるだけでなく,トレーニングデータに含まれる複数の画像から得られる情報を,プロトタイプの計算に有効活用する手法であるリッジ回帰(ridge regression)を提案する。
論文 参考訳(メタデータ) (2020-09-14T18:26:46Z) - A Deeper Look at Salient Object Detection: Bi-stream Network with a
Small Training Dataset [62.26677215668959]
4K画像のみを含む新しい小規模トレーニングセットを構築するための実現可能な方法を提案する。
提案する小型トレーニングセットをフル活用するために,新しい双方向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T01:24:33Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。