論文の概要: Zero-shot Object Counting with Good Exemplars
- arxiv url: http://arxiv.org/abs/2407.04948v1
- Date: Sat, 6 Jul 2024 03:37:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 21:47:42.845931
- Title: Zero-shot Object Counting with Good Exemplars
- Title(参考訳): 優れた例によるゼロショットオブジェクトカウント
- Authors: Huilin Zhu, Jingling Yuan, Zhengwei Yang, Yu Guo, Zheng Wang, Xian Zhong, Shengfeng He,
- Abstract要約: Zero-shot Object counting (ZOC)は、テスト中のオブジェクトクラス名のみを使用して、手動のアノテーションを必要とせずに、イメージ内のオブジェクトを列挙することを目的としている。
視覚アソシエーションに基づくゼロショットオブジェクトカウント(VA-Count)フレームワークを提案する。
VA-Count は Exemplar Enhancement Module (EEM) と Noise Suppression Module (NSM) から構成される。
- 参考スコア(独自算出の注目度): 35.7544908318547
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Zero-shot object counting (ZOC) aims to enumerate objects in images using only the names of object classes during testing, without the need for manual annotations. However, a critical challenge in current ZOC methods lies in their inability to identify high-quality exemplars effectively. This deficiency hampers scalability across diverse classes and undermines the development of strong visual associations between the identified classes and image content. To this end, we propose the Visual Association-based Zero-shot Object Counting (VA-Count) framework. VA-Count consists of an Exemplar Enhancement Module (EEM) and a Noise Suppression Module (NSM) that synergistically refine the process of class exemplar identification while minimizing the consequences of incorrect object identification. The EEM utilizes advanced vision-language pretaining models to discover potential exemplars, ensuring the framework's adaptability to various classes. Meanwhile, the NSM employs contrastive learning to differentiate between optimal and suboptimal exemplar pairs, reducing the negative effects of erroneous exemplars. VA-Count demonstrates its effectiveness and scalability in zero-shot contexts with superior performance on two object counting datasets.
- Abstract(参考訳): Zero-shot Object counting (ZOC)は、テスト中のオブジェクトクラス名のみを使用して、手動のアノテーションを必要とせずに、イメージ内のオブジェクトを列挙することを目的としている。
しかし、現在のZOC法における重要な課題は、高品質な模範を効果的に識別できないことである。
この欠如は、様々なクラスにわたるスケーラビリティを損なうとともに、識別されたクラスと画像の内容との間の強力な視覚的関連の発達を損なう。
この目的のために,視覚アソシエーションに基づくゼロショットオブジェクトカウント(VA-Count)フレームワークを提案する。
VA-Count は Exemplar Enhancement Module (EEM) と Noise Suppression Module (NSM) から構成される。
EEMは、先進的な視覚言語保持モデルを使用して、潜在的な先例を発見し、フレームワークの様々なクラスへの適応性を保証する。
一方、NSMは、最適対と準最適対を区別するために対照的な学習を採用し、誤対の負の効果を減少させる。
VA-Countは、2つのオブジェクトカウントデータセット上で優れたパフォーマンスを持つゼロショットコンテキストにおいて、その有効性とスケーラビリティを実証する。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Counterfactual Reasoning for Multi-Label Image Classification via Patching-Based Training [84.95281245784348]
共起関係の過度な強調は、モデルの過度な問題を引き起こす可能性がある。
本稿では,対象対象物とその共起対象物による相関特性を媒介者とみなすことができることを示す因果推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:13:24Z) - Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning [45.25602203155762]
自己監督型コントラスト学習は、ラベルのないデータから高品質な表現を導き出すのに有効であることが証明されている。
単目的学習とマルチモーダル学習の両方を妨げる大きな課題は、特徴抑制である。
本稿では,新しいモデルに依存しないマルチステージコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:13:33Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Teaching CLIP to Count to Ten [18.703050317383322]
大規模視覚言語モデル(VLM)の定量的理解を改善するための,シンプルで効果的な手法を提案する。
そこで本研究では,既存のVLMを本来の目的に合わせて微調整するために,新たな計数コントラスト損失を提案する。
私たちの知る限りでは、この作業はCLIPの機能をオブジェクトカウントに拡張した最初のものです。
論文 参考訳(メタデータ) (2023-02-23T14:43:53Z) - Resolving Semantic Confusions for Improved Zero-Shot Detection [6.72910827751713]
本稿では,クラス間の相違度を認識する三重項損失を考慮した生成モデルを提案する。
クラスの生成した視覚的サンプルが、自身のセマンティクスに高度に対応していることを保証するために、サイクリック一貫性損失も実施される。
論文 参考訳(メタデータ) (2022-12-12T18:11:48Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Explicitly Modeling the Discriminability for Instance-Aware Visual
Object Tracking [13.311777431243296]
特徴表現の識別性を明らかにするための新しいインスタンス・アウェア・トラッカー (IAT) を提案する。
提案するIATには,ビデオレベルとオブジェクトレベルを含む2つのバリエーションを実装している。
どちらのバージョンも30FPSで動作しながら最先端のメソッドに対して主要な結果を得る。
論文 参考訳(メタデータ) (2021-10-28T11:24:01Z) - Orthogonal Projection Loss [59.61277381836491]
直交射影損失(OPL)と呼ばれる新しい損失関数を開発する。
OPLは、機能空間におけるクラス内クラスタリングとクラス間分離を直接実施する。
OPLは、慎重な負のマイニングを必要とせず、バッチサイズに敏感であるため、ユニークな利点がある。
論文 参考訳(メタデータ) (2021-03-25T17:58:00Z) - FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding [14.896822373116729]
コントラスト的提案(FSCE)によるFew-Shotオブジェクト検出について述べる。
FSCEは、検出されたオブジェクトの分類を容易にするコントラスト認識オブジェクトエンコーディングを学ぶためのシンプルで効果的なアプローチです。
我々の設計は、任意のショットとすべてのデータにおいて現在の最先端の作業よりも優れており、標準ベンチマークPASCAL VOCでは+8.8%、挑戦ベンチマークでは+2.7%である。
論文 参考訳(メタデータ) (2021-03-10T09:15:05Z) - A Few-Shot Sequential Approach for Object Counting [63.82757025821265]
画像中のオブジェクトに逐次出席するクラスアテンション機構を導入し,それらの特徴を抽出する。
提案手法は点レベルのアノテーションに基づいて訓練され,モデルのクラス依存的・クラス依存的側面を乱す新しい損失関数を用いる。
本稿では,FSODやMS COCOなど,さまざまなオブジェクトカウント/検出データセットについて報告する。
論文 参考訳(メタデータ) (2020-07-03T18:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。