論文の概要: Decoupling What to Count and Where to See for Referring Expression Counting
- arxiv url: http://arxiv.org/abs/2510.24374v1
- Date: Tue, 28 Oct 2025 12:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.119638
- Title: Decoupling What to Count and Where to See for Referring Expression Counting
- Title(参考訳): 数えるべきものと参照する表現の数え方を切り離す
- Authors: Yuda Zou, Zijian Zhang, Yongchao Xu,
- Abstract要約: W2-Netは、問題を「数えるべきもの」と「見るべき場所」に明確に分離する新しいフレームワークである。
本稿では,ラベル割り当て時のサブクラス間セパビリティを高めるために,反発力を含む新しいマッチング戦略であるサブクラスセパブルマッチング(SSM)を紹介する。
W2-NetはREC-8Kデータセットの最先端を著しく上回り、カウントエラーを22.5%、(テスト)18.0%削減し、ローカライゼーションF1を7%、そして8%改善した。
- 参考スコア(独自算出の注目度): 13.74402820114063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Expression Counting (REC) extends class-level object counting to the fine-grained subclass-level, aiming to enumerate objects matching a textual expression that specifies both the class and distinguishing attribute. A fundamental challenge, however, has been overlooked: annotation points are typically placed on class-representative locations (e.g., heads), forcing models to focus on class-level features while neglecting attribute information from other visual regions (e.g., legs for "walking"). To address this, we propose W2-Net, a novel framework that explicitly decouples the problem into "what to count" and "where to see" via a dual-query mechanism. Specifically, alongside the standard what-to-count (w2c) queries that localize the object, we introduce dedicated where-to-see (w2s) queries. The w2s queries are guided to seek and extract features from attribute-specific visual regions, enabling precise subclass discrimination. Furthermore, we introduce Subclass Separable Matching (SSM), a novel matching strategy that incorporates a repulsive force to enhance inter-subclass separability during label assignment. W2-Net significantly outperforms the state-of-the-art on the REC-8K dataset, reducing counting error by 22.5% (validation) and 18.0% (test), and improving localization F1 by 7% and 8%, respectively. Code will be available.
- Abstract(参考訳): Referring Expression Counting (REC)は、クラスと属性を区別するテキスト式にマッチするオブジェクトを列挙することを目的として、クラスレベルのオブジェクトカウントをきめ細かなサブクラスレベルに拡張する。
アノテーションポイントは通常、クラス表現的な場所(例えば頭)に置かれ、モデルが他の視覚領域(例えば「歩行」の脚)の属性情報を無視しながら、クラスレベルの特徴に集中せざるを得ない。
この問題に対処するために、我々はW2-Netという新しいフレームワークを提案します。
具体的には、オブジェクトをローカライズする標準の what-to-count (w2c) クエリとともに、専用の where-to-see (w2s) クエリを導入します。
w2sクエリは属性固有の視覚領域から特徴を探し出し抽出するためにガイドされ、正確なサブクラス識別を可能にする。
さらに,ラベル割り当て時のサブクラス間セパビリティを高めるために,反発力を組み込んだ新しいマッチング戦略であるサブクラスセパブルマッチング(SSM)を導入する。
W2-NetはREC-8Kデータセットの最先端を著しく上回り、カウントエラーを22.5%(バリデーション)と18.0%(テスト)に減らし、ローカライゼーションF1を7%と8%改善した。
コードは利用可能です。
関連論文リスト
- Dual Prompt Learning for Adapting Vision-Language Models to Downstream Image-Text Retrieval [23.472806734625774]
画像テキストの正確なマッチングを実現するために,DCAR(Joint Category-Attribute Reweighting)を用いたデュアルプロンプト学習を提案する。
プロンプトパラダイムに基づいて、DCARは属性とクラスの特徴を協調的に最適化し、きめ細かい表現学習を強化する。
論文 参考訳(メタデータ) (2025-08-06T02:44:08Z) - LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - Split Matching for Inductive Zero-shot Semantic Segmentation [56.47556212515178]
Zero-shot Semantic (ZSS)は、トレーニング中にアノテートされていないカテゴリをセグメントすることを目的としている。
ハンガリーのマッチングを2つのコンポーネントに分離する新しい割当て戦略であるSplit Matching (SM)を提案する。
SMは、インダクティブZSS設定の下で最初に分離されたハンガリー語マッチングを導入し、2つの標準ベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-05-08T07:56:30Z) - African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification [53.89380284760555]
textttFOCI (textbfFine-fine textbfObject textbfClasstextbfIfication) は、きめ細かいオブジェクト分類のための難しい多重選択ベンチマークである。
textttFOCIxspaceは、ImageNet-21kから4つのドメイン固有のサブセットで5つの一般的な分類データセットを補完する。
論文 参考訳(メタデータ) (2024-06-20T16:59:39Z) - DeLR: Active Learning for Detection with Decoupled Localization and
Recognition Query [53.54802901197267]
本稿では,物体検出のための2つの重要な要素,すなわち局所化と認識を再考する。
そこで本研究では,アクティブクエリの局所化と認識をデカップリングする,効率的なクエリ戦略を提案する。
論文 参考訳(メタデータ) (2023-12-28T09:58:32Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。