論文の概要: A Recipe for CAC: Mosaic-based Generalized Loss for Improved Class-Agnostic Counting
- arxiv url: http://arxiv.org/abs/2404.09826v2
- Date: Mon, 18 Nov 2024 14:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:22.403009
- Title: A Recipe for CAC: Mosaic-based Generalized Loss for Improved Class-Agnostic Counting
- Title(参考訳): CAC--モザイクに基づくクラス非依存カウント改善のための一般化損失--
- Authors: Tsung-Han Chou, Brian Wang, Wei-Chen Chiu, Jun-Cheng Chen,
- Abstract要約: クラスカウント(Class counting, CAC)は、クエリ画像中の任意の参照オブジェクトの総発生数をカウントするために使用できる視覚計算タスクである。
マルチクラスの設定を考えると、モデルは参照イメージを考慮せず、クエリイメージ内のすべての支配的なオブジェクトを盲目的にマッチさせます。
既存のCAC評価手法の背景にある問題を解決するための新しい評価プロトコルとメトリクスを導入する。
- 参考スコア(独自算出の注目度): 27.439965991083177
- License:
- Abstract: Class agnostic counting (CAC) is a vision task that can be used to count the total occurrence number of any given reference objects in the query image. The task is usually formulated as a density map estimation problem through similarity computation among a few image samples of the reference object and the query image. In this paper, we point out a severe issue of the existing CAC framework: Given a multi-class setting, models don't consider reference images and instead blindly match all dominant objects in the query image. Moreover, the current evaluation metrics and dataset cannot be used to faithfully assess the model's generalization performance and robustness. To this end, we discover that the combination of mosaic augmentation with generalized loss is essential for addressing the aforementioned issue of CAC models to count objects of majority (i.e. dominant objects) regardless of the references. Furthermore, we introduce a new evaluation protocol and metrics for resolving the problem behind the existing CAC evaluation scheme and better benchmarking CAC models in a more fair manner. Besides, extensive evaluation results demonstrate that our proposed recipe can consistently improve the performance of different CAC models. The code is available at https://github.com/littlepenguin89106/MGCAC.
- Abstract(参考訳): CAC(Class Agnostic counting)は、クエリ画像中の任意の参照オブジェクトの総発生数をカウントするために使用できる視覚タスクである。
このタスクは通常、参照オブジェクトとクエリイメージの少数の画像サンプル間の類似性計算によって密度マップ推定問題として定式化される。
本稿では,既存のCACフレームワークの深刻な問題点を指摘する: マルチクラス設定の場合,モデルは参照イメージを考慮せず,クエリイメージ内のすべての支配的オブジェクトと盲目的に一致させる。
さらに、現在の評価指標とデータセットは、モデルの一般化性能と堅牢性を忠実に評価するために使用できません。
この結果から, CACモデルにおけるモザイク増減と一般化損失の組合せは, 参照によらず多数(すなわち支配的対象)のオブジェクトを数えるのに不可欠であることが判明した。
さらに,既存のCAC評価手法の裏側にある問題を解決するための新しい評価プロトコルとメトリクスを導入し,より公平にCACモデルをベンチマークする手法を提案する。
さらに,提案手法によって異なるCACモデルの性能を継続的に向上できることを示す。
コードはhttps://github.com/littlepenguin89106/MGCACで公開されている。
関連論文リスト
- A Survey on Class-Agnostic Counting: Advancements from Reference-Based to Open-World Text-Guided Approaches [6.356364436395916]
CAC(class-agnostic counting, Class-Agnostic counting, CAC)法について概説した。
本稿では,CACアプローチを参照ベース,参照レス,オープンワールドの3つのパラダイムに分類する分類法を提案する。
本研究では, FSC-147データセット, 金標準指標を用いたリーダボード, CARPKデータセットを用いて一般化能力の評価を行う。
論文 参考訳(メタデータ) (2025-01-31T14:47:09Z) - UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
粗大なパラダイムに基づいて、UNOPoseはSE(3)不変の参照フレームを構築し、オブジェクト表現を標準化する。
重なり合う領域内に存在すると予測される確率に基づいて、各対応の重みを補正する。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - Mind the Prompt: A Novel Benchmark for Prompt-based Class-Agnostic Counting [8.000723123087473]
クラスに依存しないカウント(CAC)は、モデルトレーニング中に見たことのない任意のオブジェクトクラスのインスタンスをカウントする。
本稿では,Prompt-Aware Countingベンチマークを導入し,プロンプトベースのCACモデルの堅牢性と信頼性を評価する。
我々は最先端の手法を評価し、標準クラス固有の計数基準で印象的な結果を得たものの、入力プロンプトの理解に重大な欠陥があることを実証した。
論文 参考訳(メタデータ) (2024-09-24T10:35:42Z) - SQLNet: Scale-Modulated Query and Localization Network for Few-Shot
Class-Agnostic Counting [71.38754976584009]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。
我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。
クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文 参考訳(メタデータ) (2023-11-16T16:50:56Z) - Scalable Incomplete Multi-View Clustering with Structure Alignment [71.62781659121092]
本稿では,新しいアンカーグラフ学習フレームワークを提案する。
ビュー固有のアンカーグラフを構築し、異なるビューから補完情報をキャプチャする。
提案したSIMVC-SAの時間と空間の複雑さはサンプル数と線形に相関していることが証明された。
論文 参考訳(メタデータ) (2023-08-31T08:30:26Z) - Mitigating Catastrophic Forgetting in Task-Incremental Continual
Learning with Adaptive Classification Criterion [50.03041373044267]
本稿では,継続的学習のための適応型分類基準を用いた教師付きコントラスト学習フレームワークを提案する。
実験により, CFLは最先端の性能を達成し, 分類基準に比べて克服する能力が強いことが示された。
論文 参考訳(メタデータ) (2023-05-20T19:22:40Z) - GCNet: Probing Self-Similarity Learning for Generalized Counting Network [24.09746233447471]
一般カウントネットワーク(GCNet)は、画像全体の適応的な例を認識するために開発された。
GCNetは、慎重に設計された自己相似学習戦略を通じてそれらを適応的にキャプチャすることができる。
既存の例によるメソッドと同等に動作し、クラウド固有のデータセット上で、驚くべきクロスデータセットの汎用性を示している。
論文 参考訳(メタデータ) (2023-02-10T09:31:37Z) - Not All Instances Contribute Equally: Instance-adaptive Class
Representation Learning for Few-Shot Visual Recognition [94.04041301504567]
少数ショットの視覚認識は、いくつかのラベル付きインスタンスから新しい視覚概念を認識することを指す。
本稿では,数ショットの視覚認識を実現するために,インスタンス適応型クラス表現学習ネットワーク(ICRL-Net)と呼ばれる新しいメトリックベースのメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:00:18Z) - TISE: A Toolbox for Text-to-Image Synthesis Evaluation [9.092600296992925]
単目的と多目的のテキスト・ツー・イメージ合成のための最先端手法の研究を行う。
これらの手法を評価するための共通フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-02T16:39:35Z) - Unsupervised Person Re-identification via Softened Similarity Learning [122.70472387837542]
人物再識別(re-ID)はコンピュータビジョンにおいて重要なトピックである。
本稿では,ラベル付き情報を必要としないre-IDの教師なし設定について検討する。
2つの画像ベースおよびビデオベースデータセットの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-04-07T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。