論文の概要: A Recipe for CAC: Mosaic-based Generalized Loss for Improved Class-Agnostic Counting
- arxiv url: http://arxiv.org/abs/2404.09826v2
- Date: Mon, 18 Nov 2024 14:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:22.403009
- Title: A Recipe for CAC: Mosaic-based Generalized Loss for Improved Class-Agnostic Counting
- Title(参考訳): CAC--モザイクに基づくクラス非依存カウント改善のための一般化損失--
- Authors: Tsung-Han Chou, Brian Wang, Wei-Chen Chiu, Jun-Cheng Chen,
- Abstract要約: クラスカウント(Class counting, CAC)は、クエリ画像中の任意の参照オブジェクトの総発生数をカウントするために使用できる視覚計算タスクである。
マルチクラスの設定を考えると、モデルは参照イメージを考慮せず、クエリイメージ内のすべての支配的なオブジェクトを盲目的にマッチさせます。
既存のCAC評価手法の背景にある問題を解決するための新しい評価プロトコルとメトリクスを導入する。
- 参考スコア(独自算出の注目度): 27.439965991083177
- License:
- Abstract: Class agnostic counting (CAC) is a vision task that can be used to count the total occurrence number of any given reference objects in the query image. The task is usually formulated as a density map estimation problem through similarity computation among a few image samples of the reference object and the query image. In this paper, we point out a severe issue of the existing CAC framework: Given a multi-class setting, models don't consider reference images and instead blindly match all dominant objects in the query image. Moreover, the current evaluation metrics and dataset cannot be used to faithfully assess the model's generalization performance and robustness. To this end, we discover that the combination of mosaic augmentation with generalized loss is essential for addressing the aforementioned issue of CAC models to count objects of majority (i.e. dominant objects) regardless of the references. Furthermore, we introduce a new evaluation protocol and metrics for resolving the problem behind the existing CAC evaluation scheme and better benchmarking CAC models in a more fair manner. Besides, extensive evaluation results demonstrate that our proposed recipe can consistently improve the performance of different CAC models. The code is available at https://github.com/littlepenguin89106/MGCAC.
- Abstract(参考訳): CAC(Class Agnostic counting)は、クエリ画像中の任意の参照オブジェクトの総発生数をカウントするために使用できる視覚タスクである。
このタスクは通常、参照オブジェクトとクエリイメージの少数の画像サンプル間の類似性計算によって密度マップ推定問題として定式化される。
本稿では,既存のCACフレームワークの深刻な問題点を指摘する: マルチクラス設定の場合,モデルは参照イメージを考慮せず,クエリイメージ内のすべての支配的オブジェクトと盲目的に一致させる。
さらに、現在の評価指標とデータセットは、モデルの一般化性能と堅牢性を忠実に評価するために使用できません。
この結果から, CACモデルにおけるモザイク増減と一般化損失の組合せは, 参照によらず多数(すなわち支配的対象)のオブジェクトを数えるのに不可欠であることが判明した。
さらに,既存のCAC評価手法の裏側にある問題を解決するための新しい評価プロトコルとメトリクスを導入し,より公平にCACモデルをベンチマークする手法を提案する。
さらに,提案手法によって異なるCACモデルの性能を継続的に向上できることを示す。
コードはhttps://github.com/littlepenguin89106/MGCACで公開されている。
関連論文リスト
- Mind the Prompt: A Novel Benchmark for Prompt-based Class-Agnostic Counting [8.000723123087473]
CAC(Class-Agnostic counting)は、コンピュータビジョンにおける最近の課題であり、モデルトレーニング中に見たことのない任意のオブジェクトクラスのインスタンス数を推定することを目的としている。
Prompt-Aware Countingベンチマークを導入する。このベンチマークは2つのターゲットテストで構成されており、それぞれに適切な評価指標が伴っている。
論文 参考訳(メタデータ) (2024-09-24T10:35:42Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - GMC-IQA: Exploiting Global-correlation and Mean-opinion Consistency for
No-reference Image Quality Assessment [40.33163764161929]
我々は,グローバル相関と平均オピニオン整合性を利用する新たな損失関数とネットワークを構築した。
SROCCの微分不可能な問題を解くために、ペアワイズ選好に基づくランク推定を定義することにより、新しいGCC損失を提案する。
また,重み学習のランダム性を軽減するために,多様な意見特徴を統合した平均オピニオンネットワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T06:03:01Z) - SQLNet: Scale-Modulated Query and Localization Network for Few-Shot
Class-Agnostic Counting [71.38754976584009]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。
我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。
クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文 参考訳(メタデータ) (2023-11-16T16:50:56Z) - Recursive Counterfactual Deconfounding for Object Recognition [20.128093193861165]
本稿では,クローズドセットとオープンセットの両方のシナリオにおいて,オブジェクト認識のための再帰的因果分解モデルを提案する。
提案したRCDモデルは,ほとんどの場合において,11の最先端ベースラインよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-09-25T07:46:41Z) - Scalable Incomplete Multi-View Clustering with Structure Alignment [71.62781659121092]
本稿では,新しいアンカーグラフ学習フレームワークを提案する。
ビュー固有のアンカーグラフを構築し、異なるビューから補完情報をキャプチャする。
提案したSIMVC-SAの時間と空間の複雑さはサンプル数と線形に相関していることが証明された。
論文 参考訳(メタデータ) (2023-08-31T08:30:26Z) - Mitigating Catastrophic Forgetting in Task-Incremental Continual
Learning with Adaptive Classification Criterion [50.03041373044267]
本稿では,継続的学習のための適応型分類基準を用いた教師付きコントラスト学習フレームワークを提案する。
実験により, CFLは最先端の性能を達成し, 分類基準に比べて克服する能力が強いことが示された。
論文 参考訳(メタデータ) (2023-05-20T19:22:40Z) - GCNet: Probing Self-Similarity Learning for Generalized Counting Network [24.09746233447471]
一般カウントネットワーク(GCNet)は、画像全体の適応的な例を認識するために開発された。
GCNetは、慎重に設計された自己相似学習戦略を通じてそれらを適応的にキャプチャすることができる。
既存の例によるメソッドと同等に動作し、クラウド固有のデータセット上で、驚くべきクロスデータセットの汎用性を示している。
論文 参考訳(メタデータ) (2023-02-10T09:31:37Z) - Not All Instances Contribute Equally: Instance-adaptive Class
Representation Learning for Few-Shot Visual Recognition [94.04041301504567]
少数ショットの視覚認識は、いくつかのラベル付きインスタンスから新しい視覚概念を認識することを指す。
本稿では,数ショットの視覚認識を実現するために,インスタンス適応型クラス表現学習ネットワーク(ICRL-Net)と呼ばれる新しいメトリックベースのメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:00:18Z) - TISE: A Toolbox for Text-to-Image Synthesis Evaluation [9.092600296992925]
単目的と多目的のテキスト・ツー・イメージ合成のための最先端手法の研究を行う。
これらの手法を評価するための共通フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-02T16:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。