論文の概要: CQ-DINO: Mitigating Gradient Dilution via Category Queries for Vast Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2503.18430v1
- Date: Mon, 24 Mar 2025 08:22:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:01.742757
- Title: CQ-DINO: Mitigating Gradient Dilution via Category Queries for Vast Vocabulary Object Detection
- Title(参考訳): CQ-DINO:Vast Vocabulary Object Detectionのためのカテゴリクエリによるグラディエント希釈の緩和
- Authors: Zhichao Sun, Huazhang Hu, Yidong Ma, Gang Liu, Nemo Chen, Xu Tang, Yongchao Xu,
- Abstract要約: カテゴリクエリに基づくオブジェクト検出フレームワークであるCQ-DINOを提案する。
CQ-DINOは、オブジェクトクエリと学習可能なカテゴリクエリの間の対照的なタスクとして分類を再構成する。
実験により、CQ-DINOは挑戦的なV3Detベンチマークにおいて優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 14.224022644845093
- License:
- Abstract: With the exponential growth of data, traditional object detection methods are increasingly struggling to handle vast vocabulary object detection tasks effectively. We analyze two key limitations of classification-based detectors: positive gradient dilution, where rare positive categories receive insufficient learning signals, and hard negative gradient dilution, where discriminative gradients are overwhelmed by numerous easy negatives. To address these challenges, we propose CQ-DINO, a category query-based object detection framework that reformulates classification as a contrastive task between object queries and learnable category queries. Our method introduces image-guided query selection, which reduces the negative space by adaptively retrieving top-K relevant categories per image via cross-attention, thereby rebalancing gradient distributions and facilitating implicit hard example mining. Furthermore, CQ-DINO flexibly integrates explicit hierarchical category relationships in structured datasets (e.g., V3Det) or learns implicit category correlations via self-attention in generic datasets (e.g., COCO). Experiments demonstrate that CQ-DINO achieves superior performance on the challenging V3Det benchmark (surpassing previous methods by 2.1% AP) while maintaining competitiveness in COCO. Our work provides a scalable solution for real-world detection systems requiring wide category coverage. The dataset and code will be publicly at https://github.com/RedAIGC/CQ-DINO.
- Abstract(参考訳): データの指数関数的増加に伴い、従来のオブジェクト検出手法は、膨大な語彙オブジェクト検出タスクを効果的に扱うのにますます苦労している。
分類に基づく検出器の2つの重要な限界は、希少な正のカテゴリーが不十分な学習信号を受信する正の勾配希釈と、識別的勾配が多くの容易な負によって圧倒される硬い負の勾配希釈である。
これらの課題に対処するため、CQ-DINOというカテゴリクエリに基づくオブジェクト検出フレームワークを提案し、オブジェクトクエリと学習可能なカテゴリクエリ間の対照的なタスクとして分類を再構成する。
本手法では,画像毎のトップK関連カテゴリをクロスアテンションにより適応的に検索し,勾配分布のバランスを保ち,暗黙のハードサンプルマイニングを容易にすることにより,負の空間を小さくする。
さらに、CQ-DINOは構造化データセット(例えばV3Det)における明示的な階層的カテゴリ関係を柔軟に統合するか、あるいはジェネリックデータセット(例えばCOCO)における自己注意を通して暗黙的なカテゴリ相関を学習する。
CQ-DINOは、COCOの競争力を保ちながら、挑戦的なV3Detベンチマーク(以前の手法を2.1%APで通過させる)において優れた性能を発揮することを示した。
我々の研究は、広範囲のカテゴリをカバーする必要がある実世界の検知システムに対してスケーラブルなソリューションを提供する。
データセットとコードはhttps://github.com/RedAIGC/CQ-DINOで公開される。
関連論文リスト
- Hierarchical Query Classification in E-commerce Search [38.67034103433015]
電子商取引プラットフォームは通常、製品情報と検索データを階層構造に保存し、構造化する。
ユーザ検索クエリを同様の階層構造に効果的に分類することは,eコマースプラットフォーム上でのユーザエクスペリエンスの向上,ニュースキュレーションや学術研究において最重要である。
階層的問合せ分類の本質的な複雑さは,(1)支配的カテゴリに傾倒する顕著なクラス不均衡,(2)正確な分類を妨げる検索クエリの本質的簡潔さとあいまいさの2つの課題によって複雑化されている。
論文 参考訳(メタデータ) (2024-03-09T21:55:55Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Dynamic Conceptional Contrastive Learning for Generalized Category
Discovery [76.82327473338734]
Generalized category discovery (GCD) は、部分的にラベル付けされたデータを自動でクラスタリングすることを目的としている。
ラベル付きデータには、ラベル付きデータの既知のカテゴリだけでなく、新しいカテゴリのインスタンスも含まれている。
GCDの効果的な方法の1つは、ラベルなしデータの識別表現を学習するために自己教師付き学習を適用することである。
本稿では,クラスタリングの精度を効果的に向上する動的概念コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:04:39Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Fine-grained Category Discovery under Coarse-grained supervision with
Hierarchical Weighted Self-contrastive Learning [37.6512548064269]
粗粒度監視(FCDC)下での細粒度カテゴリー発見という新たな実践シナリオについて検討する。
FCDCは、粗いラベル付きデータのみを用いて、既知のデータと異なる粒度のカテゴリにモデルを適応させ、かなりのラベル付けコストを削減できるきめ細かなカテゴリを発見することを目的としている。
本稿では,新しい重み付き自己コントラストモジュールを構築し,それを階層的に教師付き学習と組み合わせることで,階層型自己コントラストネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T12:06:23Z) - Classifying with Uncertain Data Envelopment Analysis [0.0]
本稿では,不完全データの現実を前提とした新しい分類手法を提案する。
本モデルでは、不確実なデータ包絡分析を用いて、公平な効率に対する分類の近接性を定義する。
本研究は, ダウ・ジョーンズ工業平均の30株をパフォーマンスレベルに分類し, 前立腺治療を臨床効果カテゴリーに分類することで結論付けた。
論文 参考訳(メタデータ) (2022-09-02T13:41:19Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - CaT: Weakly Supervised Object Detection with Category Transfer [41.34509685442456]
完全な教師対象検出と弱い教師対象検出の間には大きなギャップがある。
弱教師付きオブジェクト検出のための新しいカテゴリ転送フレームワークを提案する。
当社のフレームワークは63.5%のmAPと80.3%のCorLocを実現しており、2つのデータセット間で5つのカテゴリが重なり合っている。
論文 参考訳(メタデータ) (2021-08-17T07:59:34Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。