Fugu-MT 論文翻訳(概要): A Recipe for CAC: Mosaic-based Generalized Loss for Improved Class-Agnostic Counting

論文の概要: A Recipe for CAC: Mosaic-based Generalized Loss for Improved Class-Agnostic Counting

arxiv url: http://arxiv.org/abs/2404.09826v2
Date: Mon, 18 Nov 2024 14:52:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.865256
Title: A Recipe for CAC: Mosaic-based Generalized Loss for Improved Class-Agnostic Counting
Title（参考訳）: CAC--モザイクに基づくクラス非依存カウント改善のための一般化損失--
Authors: Tsung-Han Chou, Brian Wang, Wei-Chen Chiu, Jun-Cheng Chen,
Abstract要約: クラスカウント(Class counting, CAC)は、クエリ画像中の任意の参照オブジェクトの総発生数をカウントするために使用できる視覚計算タスクである。マルチクラスの設定を考えると、モデルは参照イメージを考慮せず、クエリイメージ内のすべての支配的なオブジェクトを盲目的にマッチさせます。既存のCAC評価手法の背景にある問題を解決するための新しい評価プロトコルとメトリクスを導入する。
参考スコア（独自算出の注目度）: 27.439965991083177
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Class agnostic counting (CAC) is a vision task that can be used to count the total occurrence number of any given reference objects in the query image. The task is usually formulated as a density map estimation problem through similarity computation among a few image samples of the reference object and the query image. In this paper, we point out a severe issue of the existing CAC framework: Given a multi-class setting, models don't consider reference images and instead blindly match all dominant objects in the query image. Moreover, the current evaluation metrics and dataset cannot be used to faithfully assess the model's generalization performance and robustness. To this end, we discover that the combination of mosaic augmentation with generalized loss is essential for addressing the aforementioned issue of CAC models to count objects of majority (i.e. dominant objects) regardless of the references. Furthermore, we introduce a new evaluation protocol and metrics for resolving the problem behind the existing CAC evaluation scheme and better benchmarking CAC models in a more fair manner. Besides, extensive evaluation results demonstrate that our proposed recipe can consistently improve the performance of different CAC models. The code is available at https://github.com/littlepenguin89106/MGCAC.
Abstract（参考訳）: CAC(Class Agnostic counting)は、クエリ画像中の任意の参照オブジェクトの総発生数をカウントするために使用できる視覚タスクである。このタスクは通常、参照オブジェクトとクエリイメージの少数の画像サンプル間の類似性計算によって密度マップ推定問題として定式化される。本稿では,既存のCACフレームワークの深刻な問題点を指摘する: マルチクラス設定の場合,モデルは参照イメージを考慮せず,クエリイメージ内のすべての支配的オブジェクトと盲目的に一致させる。さらに、現在の評価指標とデータセットは、モデルの一般化性能と堅牢性を忠実に評価するために使用できません。この結果から, CACモデルにおけるモザイク増減と一般化損失の組合せは, 参照によらず多数(すなわち支配的対象)のオブジェクトを数えるのに不可欠であることが判明した。さらに,既存のCAC評価手法の裏側にある問題を解決するための新しい評価プロトコルとメトリクスを導入し,より公平にCACモデルをベンチマークする手法を提案する。さらに,提案手法によって異なるCACモデルの性能を継続的に向上できることを示す。コードはhttps://github.com/littlepenguin89106/MGCACで公開されている。

関連論文リスト

OCCAM: Class-Agnostic, Training-Free, Prior-Free and Multi-Class Object Counting [1.2196508752999795]
CAC(Class-Agnostic Object Counting)は、イメージ内の任意のクラスからオブジェクトのインスタンスをカウントする。補足情報を必要としないCACに対する初となるトレーニングフリーアプローチであるOCCAMを提示する。
論文参考訳（メタデータ） (2026-01-20T11:36:38Z)
Generalized Deep Multi-view Clustering via Causal Learning with Partially Aligned Cross-view Correspondence [72.41989962665285]
マルチビュークラスタリング(MVC)は、複数のビューにまたがる共通のクラスタリング構造を検討することを目的としている。しかし、現実のシナリオは、部分的なデータだけが異なるビューに一貫して整合しているため、しばしば課題となる。我々は,CauMVCと呼ばれる因果的マルチビュークラスタリングネットワークを設計し,この問題に対処する。
論文参考訳（メタデータ） (2025-09-19T14:31:40Z)
On Large Multimodal Models as Open-World Image Classifiers [71.78089106671581]
大規模マルチモーダルモデル(LMM)は、自然言語を使って画像を分類することができる。原型,非原型,きめ細かな粒度,そして非常にきめ細かいクラスを含む10のベンチマークで13のモデルを評価した。
論文参考訳（メタデータ） (2025-03-27T17:03:18Z)
A Survey on Class-Agnostic Counting: Advancements from Reference-Based to Open-World Text-Guided Approaches [6.356364436395916]
CAC(class-agnostic counting, Class-Agnostic counting, CAC)法について概説した。本稿では,CACアプローチを参照ベース,参照レス,オープンワールドの3つのパラダイムに分類する分類法を提案する。本研究では, FSC-147データセット, 金標準指標を用いたリーダボード, CARPKデータセットを用いて一般化能力の評価を行う。
論文参考訳（メタデータ） (2025-01-31T14:47:09Z)
UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。粗大なパラダイムに基づいて、UNOPoseはSE(3)不変の参照フレームを構築し、オブジェクト表現を標準化する。重なり合う領域内に存在すると予測される確率に基づいて、各対応の重みを補正する。
論文参考訳（メタデータ） (2024-11-25T05:36:00Z)
Mind the Prompt: A Novel Benchmark for Prompt-based Class-Agnostic Counting [8.000723123087473]
CAC(Class-Agnostic counting)は、コンピュータビジョンにおける最近の課題であり、モデルトレーニング中に見たことのない任意のオブジェクトクラスのインスタンス数を推定することを目的としている。 Prompt-Aware Countingベンチマークを導入する。このベンチマークは2つのターゲットテストで構成されており、それぞれに適切な評価指標が伴っている。
論文参考訳（メタデータ） (2024-09-24T10:35:42Z)
African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification [53.89380284760555]
textttFOCI (textbfFine-fine textbfObject textbfClasstextbfIfication) は、きめ細かいオブジェクト分類のための難しい多重選択ベンチマークである。 textttFOCIxspaceは、ImageNet-21kから4つのドメイン固有のサブセットで5つの一般的な分類データセットを補完する。
論文参考訳（メタデータ） (2024-06-20T16:59:39Z)
SQLNet: Scale-Modulated Query and Localization Network for Few-Shot Class-Agnostic Counting [71.38754976584009]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文参考訳（メタデータ） (2023-11-16T16:50:56Z)
Re-Scoring Using Image-Language Similarity for Few-Shot Object Detection [4.0208298639821525]
ラベルの少ない新規なオブジェクトの検出に焦点をあてるオブジェクト検出は,コミュニティにおいて新たな課題となっている。近年の研究では、事前訓練されたモデルや修正された損失関数の適応により、性能が向上することが示されている。我々は、より高速なR-CNNを拡張するFew-shot Object Detection (RISF)のための画像言語類似性を用いた再構成を提案する。
論文参考訳（メタデータ） (2023-11-01T04:04:34Z)
Scalable Incomplete Multi-View Clustering with Structure Alignment [71.62781659121092]
本稿では,新しいアンカーグラフ学習フレームワークを提案する。ビュー固有のアンカーグラフを構築し、異なるビューから補完情報をキャプチャする。提案したSIMVC-SAの時間と空間の複雑さはサンプル数と線形に相関していることが証明された。
論文参考訳（メタデータ） (2023-08-31T08:30:26Z)
Mitigating Catastrophic Forgetting in Task-Incremental Continual Learning with Adaptive Classification Criterion [50.03041373044267]
本稿では,継続的学習のための適応型分類基準を用いた教師付きコントラスト学習フレームワークを提案する。実験により, CFLは最先端の性能を達成し, 分類基準に比べて克服する能力が強いことが示された。
論文参考訳（メタデータ） (2023-05-20T19:22:40Z)
GCNet: Probing Self-Similarity Learning for Generalized Counting Network [24.09746233447471]
一般カウントネットワーク(GCNet)は、画像全体の適応的な例を認識するために開発された。 GCNetは、慎重に設計された自己相似学習戦略を通じてそれらを適応的にキャプチャすることができる。既存の例によるメソッドと同等に動作し、クラウド固有のデータセット上で、驚くべきクロスデータセットの汎用性を示している。
論文参考訳（メタデータ） (2023-02-10T09:31:37Z)
Not All Instances Contribute Equally: Instance-adaptive Class Representation Learning for Few-Shot Visual Recognition [94.04041301504567]
少数ショットの視覚認識は、いくつかのラベル付きインスタンスから新しい視覚概念を認識することを指す。本稿では,数ショットの視覚認識を実現するために,インスタンス適応型クラス表現学習ネットワーク(ICRL-Net)と呼ばれる新しいメトリックベースのメタラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-09-07T10:00:18Z)
TISE: A Toolbox for Text-to-Image Synthesis Evaluation [9.092600296992925]
単目的と多目的のテキスト・ツー・イメージ合成のための最先端手法の研究を行う。これらの手法を評価するための共通フレームワークを提案する。
論文参考訳（メタデータ） (2021-12-02T16:39:35Z)
Unsupervised Person Re-identification via Softened Similarity Learning [122.70472387837542]
人物再識別(re-ID)はコンピュータビジョンにおいて重要なトピックである。本稿では,ラベル付き情報を必要としないre-IDの教師なし設定について検討する。 2つの画像ベースおよびビデオベースデータセットの実験は、最先端のパフォーマンスを示している。
論文参考訳（メタデータ） (2020-04-07T17:16:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。