論文の概要: A Simple-but-effective Baseline for Training-free Class-Agnostic Counting
- arxiv url: http://arxiv.org/abs/2403.01418v2
- Date: Mon, 06 Jan 2025 06:58:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:03:24.230484
- Title: A Simple-but-effective Baseline for Training-free Class-Agnostic Counting
- Title(参考訳): 学習不要なクラス非依存カウントのための簡易だが効果的なベースライン
- Authors: Yuhao Lin, Haiming Xu, Lingqiao Liu, Javen Qinfeng Shi,
- Abstract要約: CAC(Class-Agnostic Counting)は、いくつかの参照例だけで、与えられた画像内のオブジェクトを正確にカウントすることを目指している。
近年の取り組みでは、既存の基礎モデルを利用することで、トレーニングなしでこれを達成できることが示されている。
我々は、このパフォーマンスギャップを効果的に橋渡しし、強力なベースラインとして機能する、トレーニング不要のソリューションを提案する。
- 参考スコア(独自算出の注目度): 28.18693237718039
- License:
- Abstract: Class-Agnostic Counting (CAC) seeks to accurately count objects in a given image with only a few reference examples. While previous methods achieving this relied on additional training, recent efforts have shown that it's possible to accomplish this without training by utilizing pre-existing foundation models, particularly the Segment Anything Model (SAM), for counting via instance-level segmentation. Although promising, current training-free methods still lag behind their training-based counterparts in terms of performance. In this research, we present a straightforward training-free solution that effectively bridges this performance gap, serving as a strong baseline. The primary contribution of our work lies in the discovery of four key technologies that can enhance performance. Specifically, we suggest employing a superpixel algorithm to generate more precise initial point prompts, utilizing an image encoder with richer semantic knowledge to replace the SAM encoder for representing candidate objects, and adopting a multiscale mechanism and a transductive prototype scheme to update the representation of reference examples. By combining these four technologies, our approach achieves significant improvements over existing training-free methods and delivers performance on par with training-based ones.
- Abstract(参考訳): CAC(Class-Agnostic Counting)は、いくつかの参照例だけで、与えられた画像内のオブジェクトを正確にカウントすることを目指している。
これまでの方法は追加のトレーニングに頼っていたが、近年の取り組みは、既存の基礎モデル、特にSAM(Segment Anything Model)を利用して、インスタンスレベルのセグメンテーションを通じてカウントすることで、トレーニングなしでこれを達成することができることを示した。
有望ではあるが、現在のトレーニングフリーメソッドは、パフォーマンスという点ではトレーニングベースのメソッドよりも遅れている。
本研究では、この性能ギャップを効果的に橋渡しし、強力なベースラインとして機能する、簡単なトレーニング不要のソリューションを提案する。
私たちの研究の主な貢献は、パフォーマンスを向上させる4つの重要な技術の発見にあります。
具体的には、より正確な初期点プロンプトを生成するためにスーパーピクセルアルゴリズムを採用し、画像エンコーダをリッチな意味知識で利用し、SAMエンコーダを代替して候補オブジェクトを表現し、参照例の表現を更新するためのマルチスケールメカニズムとトランスダクティブプロトタイプスキームを採用することを提案する。
これら4つの技術を組み合わせることで、既存のトレーニングフリー手法よりも大幅に改善され、トレーニングベースの手法と同等のパフォーマンスを提供する。
関連論文リスト
- Task-Oriented Pre-Training for Drivable Area Detection [5.57325257338134]
本稿では,冗長なセグメンテーションの提案から始まるタスク指向の事前学習手法を提案する。
次に、コントラスト言語画像事前学習(CLIP)モデルを微調整するための特定カテゴリー強化微調整(SCEF)戦略を導入する。
このアプローチは、手動のアノテートデータを使用してさらに微調整された事前学習モデルの粗いトレーニングデータを生成することができる。
論文 参考訳(メタデータ) (2024-09-30T10:25:47Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。
我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。
OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文 参考訳(メタデータ) (2024-04-12T01:08:04Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - Beyond Simple Meta-Learning: Multi-Purpose Models for Multi-Domain,
Active and Continual Few-Shot Learning [41.07029317930986]
低ラベル方式で動作するモデルの分散感応クラスを提案する。
最初の手法であるSimple CNAPSは階層的に正規化されたマハラノビス距離に基づく分類器を用いる。
我々はさらに、このアプローチをトランスダクティブ学習環境に拡張し、トランスダクティブCNAPSを提案する。
論文 参考訳(メタデータ) (2022-01-13T18:59:02Z) - Label, Verify, Correct: A Simple Few Shot Object Detection Method [93.84801062680786]
トレーニングセットから高品質な擬似アノテーションを抽出するための簡単な擬似ラベリング手法を提案する。
擬似ラベリングプロセスの精度を向上させるための2つの新しい手法を提案する。
提案手法は,既存手法と比較して,最先端ないし第2の性能を実現する。
論文 参考訳(メタデータ) (2021-12-10T18:59:06Z) - SML: Semantic Meta-learning for Few-shot Semantic Segmentation [27.773396307292497]
本稿では,提案するメタ学習フレームワークSemantic Meta-Learningを提案する。
さらに,クラスレベルのセマンティック情報を取り入れるだけでなく,トレーニングデータに含まれる複数の画像から得られる情報を,プロトタイプの計算に有効活用する手法であるリッジ回帰(ridge regression)を提案する。
論文 参考訳(メタデータ) (2020-09-14T18:26:46Z) - A Deeper Look at Salient Object Detection: Bi-stream Network with a
Small Training Dataset [62.26677215668959]
4K画像のみを含む新しい小規模トレーニングセットを構築するための実現可能な方法を提案する。
提案する小型トレーニングセットをフル活用するために,新しい双方向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T01:24:33Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。