Fugu-MT 論文翻訳(概要): A Simple-but-effective Baseline for Training-free Class-Agnostic Counting

論文の概要: A Simple-but-effective Baseline for Training-free Class-Agnostic Counting

arxiv url: http://arxiv.org/abs/2403.01418v1
Date: Sun, 3 Mar 2024 07:19:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 21:37:46.079847
Title: A Simple-but-effective Baseline for Training-free Class-Agnostic Counting
Title（参考訳）: トレーニングフリークラス非依存カウントのための単純だが効果的なベースライン
Authors: Yuhao Lin, Haiming Xu, Lingqiao Liu, Javen Qinfeng Shi
Abstract要約: CAC(Class-Agnostic Counting)は、いくつかの参照例だけで、与えられた画像内のオブジェクトを正確にカウントすることを目指している。近年の取り組みでは、既存の基礎モデルを利用することで、トレーニングなしでこれを達成できることが示されている。我々は、このパフォーマンスギャップを効果的に橋渡しし、強力なベースラインとして機能する、トレーニング不要のソリューションを提案する。
参考スコア（独自算出の注目度）: 30.792198686654075
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Class-Agnostic Counting (CAC) seeks to accurately count objects in a given image with only a few reference examples. While previous methods achieving this relied on additional training, recent efforts have shown that it's possible to accomplish this without training by utilizing pre-existing foundation models, particularly the Segment Anything Model (SAM), for counting via instance-level segmentation. Although promising, current training-free methods still lag behind their training-based counterparts in terms of performance. In this research, we present a straightforward training-free solution that effectively bridges this performance gap, serving as a strong baseline. The primary contribution of our work lies in the discovery of four key technologies that can enhance performance. Specifically, we suggest employing a superpixel algorithm to generate more precise initial point prompts, utilizing an image encoder with richer semantic knowledge to replace the SAM encoder for representing candidate objects, and adopting a multiscale mechanism and a transductive prototype scheme to update the representation of reference examples. By combining these four technologies, our approach achieves significant improvements over existing training-free methods and delivers performance on par with training-based ones.
Abstract（参考訳）: CAC(Class-Agnostic Counting)は、いくつかの参照例だけで、与えられた画像内のオブジェクトを正確にカウントする。これまでの方法は追加のトレーニングに頼っていたが、近年の取り組みは、既存の基礎モデル、特にSAM(Segment Anything Model)を利用して、インスタンスレベルのセグメンテーションを通じてカウントすることで、トレーニングなしでこれを達成することができることを示した。有望ではあるが、現在のトレーニングフリーメソッドは、パフォーマンスという点ではトレーニングベースのメソッドよりも遅れている。本研究では,このパフォーマンスギャップを効果的に橋渡しし,強力なベースラインとして機能する,簡単なトレーニングフリーなソリューションを提案する。私たちの仕事の主な貢献は、パフォーマンスを向上させる4つの重要な技術の発見にあります。具体的には、より正確な初期点プロンプトを生成するためにスーパーピクセルアルゴリズムを使用し、より豊かな意味知識を持つイメージエンコーダを使用して候補オブジェクトを表すsamエンコーダを置き換えることを提案し、参照例の表現を更新するためにマルチスケール機構とトランスダクティブプロトタイプスキームを採用する。これら4つの技術を組み合わせることで、既存のトレーニングフリーメソッドよりも大幅な改善を達成し、トレーニングベースの手法と同等のパフォーマンスを実現します。

関連論文リスト

Task-Oriented Pre-Training for Drivable Area Detection [5.57325257338134]
本稿では,冗長なセグメンテーションの提案から始まるタスク指向の事前学習手法を提案する。次に、コントラスト言語画像事前学習(CLIP)モデルを微調整するための特定カテゴリー強化微調整(SCEF)戦略を導入する。このアプローチは、手動のアノテートデータを使用してさらに微調整された事前学習モデルの粗いトレーニングデータを生成することができる。
論文参考訳（メタデータ） (2024-09-30T10:25:47Z)
Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文参考訳（メタデータ） (2024-05-22T06:48:43Z)
Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文参考訳（メタデータ） (2024-05-06T02:02:57Z)
Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。 OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文参考訳（メタデータ） (2024-04-12T01:08:04Z)
Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文参考訳（メタデータ） (2023-11-16T10:42:58Z)
Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-11-17T18:59:49Z)
Beyond Simple Meta-Learning: Multi-Purpose Models for Multi-Domain, Active and Continual Few-Shot Learning [41.07029317930986]
低ラベル方式で動作するモデルの分散感応クラスを提案する。最初の手法であるSimple CNAPSは階層的に正規化されたマハラノビス距離に基づく分類器を用いる。我々はさらに、このアプローチをトランスダクティブ学習環境に拡張し、トランスダクティブCNAPSを提案する。
論文参考訳（メタデータ） (2022-01-13T18:59:02Z)
Label, Verify, Correct: A Simple Few Shot Object Detection Method [93.84801062680786]
トレーニングセットから高品質な擬似アノテーションを抽出するための簡単な擬似ラベリング手法を提案する。擬似ラベリングプロセスの精度を向上させるための2つの新しい手法を提案する。提案手法は,既存手法と比較して,最先端ないし第2の性能を実現する。
論文参考訳（メタデータ） (2021-12-10T18:59:06Z)
SML: Semantic Meta-learning for Few-shot Semantic Segmentation [27.773396307292497]
本稿では,提案するメタ学習フレームワークSemantic Meta-Learningを提案する。さらに,クラスレベルのセマンティック情報を取り入れるだけでなく,トレーニングデータに含まれる複数の画像から得られる情報を,プロトタイプの計算に有効活用する手法であるリッジ回帰(ridge regression)を提案する。
論文参考訳（メタデータ） (2020-09-14T18:26:46Z)
A Deeper Look at Salient Object Detection: Bi-stream Network with a Small Training Dataset [62.26677215668959]
4K画像のみを含む新しい小規模トレーニングセットを構築するための実現可能な方法を提案する。提案する小型トレーニングセットをフル活用するために,新しい双方向ネットワークを提案する。
論文参考訳（メタデータ） (2020-08-07T01:24:33Z)
Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文参考訳（メタデータ） (2020-04-12T09:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。