論文の概要: Improving Contrastive Learning for Referring Expression Counting
- arxiv url: http://arxiv.org/abs/2505.22850v1
- Date: Wed, 28 May 2025 20:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.529614
- Title: Improving Contrastive Learning for Referring Expression Counting
- Title(参考訳): 表現数参照のためのコントラスト学習の改善
- Authors: Kostas Triaridis, Panagiotis Kaliosis, E-Ro Nguyen, Jingyi Xu, Hieu Le, Dimitris Samaras,
- Abstract要約: C-REXは、教師付きコントラスト学習に基づく、新しいコントラスト学習フレームワークである。
画像空間内で完全に動作し、画像テキストのコントラスト学習のミスアライメントの問題を避ける。
C-REXはReferring Expression Countingで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 35.979549843591926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object counting has progressed from class-specific models, which count only known categories, to class-agnostic models that generalize to unseen categories. The next challenge is Referring Expression Counting (REC), where the goal is to count objects based on fine-grained attributes and contextual differences. Existing methods struggle with distinguishing visually similar objects that belong to the same category but correspond to different referring expressions. To address this, we propose C-REX, a novel contrastive learning framework, based on supervised contrastive learning, designed to enhance discriminative representation learning. Unlike prior works, C-REX operates entirely within the image space, avoiding the misalignment issues of image-text contrastive learning, thus providing a more stable contrastive signal. It also guarantees a significantly larger pool of negative samples, leading to improved robustness in the learned representations. Moreover, we showcase that our framework is versatile and generic enough to be applied to other similar tasks like class-agnostic counting. To support our approach, we analyze the key components of sota detection-based models and identify that detecting object centroids instead of bounding boxes is the key common factor behind their success in counting tasks. We use this insight to design a simple yet effective detection-based baseline to build upon. Our experiments show that C-REX achieves state-of-the-art results in REC, outperforming previous methods by more than 22\% in MAE and more than 10\% in RMSE, while also demonstrating strong performance in class-agnostic counting. Code is available at https://github.com/cvlab-stonybrook/c-rex.
- Abstract(参考訳): オブジェクトカウントは、既知のカテゴリのみをカウントするクラス固有モデルから、目に見えないカテゴリに一般化するクラス非依存モデルへと進歩してきた。
次の課題はReferring Expression Counting (REC)である。
既存の手法では、同じカテゴリーに属するが異なる参照表現に対応する視覚的に類似したオブジェクトの識別に苦労する。
そこで本研究では,教師付きコントラスト学習に基づく新しいコントラスト学習フレームワークであるC-REXを提案する。
以前の作品とは異なり、C-REXは画像空間内で完全に動作し、画像テキストのコントラスト学習のミスアライメントの問題を避け、より安定したコントラスト信号を提供する。
また、非常に大きな負のサンプルのプールが保証され、学習された表現の堅牢性が向上する。
さらに、我々のフレームワークは汎用的で、クラスに依存しないカウントのような他の類似したタスクに適用できるほど汎用的であることを示す。
提案手法を支援するために,ソタ検出モデルの主要な要素を解析し,ボックスではなく対象セントロイドを検出することが,タスクのカウント成功の鍵となる要因であることを確認した。
この洞察を使って、構築するためのシンプルで効果的な検出ベースのベースラインを設計します。
実験の結果,C-REX は REC の最先端化を実現し,MAE では 22 % 以上,RMSE では 10 % 以上,またクラスに依存しないカウントでは強い性能を示した。
コードはhttps://github.com/cvlab-stonybrook/c-rex.comで入手できる。
関連論文リスト
- Zero-shot Object Counting with Good Exemplars [35.7544908318547]
Zero-shot Object counting (ZOC)は、テスト中のオブジェクトクラス名のみを使用して、手動のアノテーションを必要とせずに、イメージ内のオブジェクトを列挙することを目的としている。
視覚アソシエーションに基づくゼロショットオブジェクトカウント(VA-Count)フレームワークを提案する。
VA-Count は Exemplar Enhancement Module (EEM) と Noise Suppression Module (NSM) から構成される。
論文 参考訳(メタデータ) (2024-07-06T03:37:22Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Gramian Attention Heads are Strong yet Efficient Vision Learners [26.79263390835444]
複数のヘッダ分類器(e, classification head)を組み込むことで表現性を向上する新しいアーキテクチャ設計を提案する。
本手法では,資源オーバーヘッドを最小に抑えつつ,複数の軽量ヘッドを強化するために,一対の特徴的類似性を利用したアグリゲーションを用いる。
われわれのモデルは最終的に、ImageNet-1Kの精度の細かいトレードオフに関して、最先端のCNNやViTを上回ることになる。
論文 参考訳(メタデータ) (2023-10-25T09:08:58Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Weakly Supervised Contrastive Learning [68.47096022526927]
この問題に対処するために,弱教師付きコントラスト学習フレームワーク(WCL)を導入する。
WCLはResNet50を使用して65%と72%のImageNet Top-1の精度を実現している。
論文 参考訳(メタデータ) (2021-10-10T12:03:52Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。