論文の概要: Parameter-Efficient Semantic Augmentation for Enhancing Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2604.04444v1
- Date: Mon, 06 Apr 2026 05:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.105531
- Title: Parameter-Efficient Semantic Augmentation for Enhancing Open-Vocabulary Object Detection
- Title(参考訳): オープンボキャブラリオブジェクト検出のためのパラメータ効率の良いセマンティック拡張
- Authors: Weihao Cao, Runqi Wang, Xiaoyue Duan, Jinchao Zhang, Ang Yang, Liping Jing,
- Abstract要約: HSA-DINOは、オープン語彙オブジェクト検出を強化するためのパラメータ効率のよいセマンティック拡張フレームワークである。
推論中に適切な意味拡張戦略を動的に選択する意味認識ルータを提案する。
我々は,OV-COCO上のHSA-DINO,いくつかの垂直領域データセット,修正されたベンチマーク設定を評価した。
- 参考スコア(独自算出の注目度): 33.35667602014138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary object detection (OVOD) enables models to detect any object category, including unseen ones. Benefiting from large-scale pre-training, existing OVOD methods achieve strong detection performance on general scenarios (e.g., OV-COCO) but suffer severe performance drops when transferred to downstream tasks with substantial domain shifts. This degradation stems from the scarcity and weak semantics of category labels in domain-specific task, as well as the inability of existing models to capture auxiliary semantics beyond coarse-grained category label. To address these issues, we propose HSA-DINO, a parameter-efficient semantic augmentation framework for enhancing open-vocabulary object detection. Specifically, we propose a multi-scale prompt bank that leverages image feature pyramids to capture hierarchical semantics and select domain-specific local semantic prompts, progressively enriching textual representations from coarse to fine-grained levels. Furthermore, we introduce a semantic-aware router that dynamically selects the appropriate semantic augmentation strategy during inference, thereby preventing parameter updates from degrading the generalization ability of the pre-trained OVOD model. We evaluate HSA-DINO on OV-COCO, several vertical domain datasets, and modified benchmark settings. The results show that HSA-DINO performs favorably against previous state-of-the-art methods, achieving a superior trade-off between domain adaptability and open-vocabulary generalization.
- Abstract(参考訳): Open-vocabulary Object Detection (OVOD)により、モデルは見えないものを含む任意のオブジェクトカテゴリを検出できる。
既存のOVOD法は,大規模事前学習に特化して一般的なシナリオ(例:OV-COCO)において強力な検出性能を実現するが,ドメインシフトがかなり大きいダウンストリームタスクに移行すると,大幅な性能低下が生じる。
この劣化は、ドメイン固有のタスクにおけるカテゴリラベルの不足と弱いセマンティクス、および、粗いカテゴリラベルを超えて補助的なセマンティクスをキャプチャする既存のモデルの欠如に起因している。
これらの問題に対処するために,オープン語彙オブジェクト検出を向上するためのパラメータ効率のよいセマンティック拡張フレームワークであるHSA-DINOを提案する。
具体的には、画像特徴ピラミッドを利用したマルチスケールプロンプトバンクを提案し、階層的セマンティックスをキャプチャし、ドメイン固有のローカルなセマンティック・プロンプトを選択する。
さらに、推論中に適切な意味拡張戦略を動的に選択し、パラメータ更新が事前学習されたOVODモデルの一般化能力の低下を防ぐ意味認識ルータを導入する。
我々は,OV-COCO上のHSA-DINO,いくつかの垂直領域データセット,修正されたベンチマーク設定を評価した。
その結果,HSA-DINOは従来の最先端手法に対して良好に作用し,ドメイン適応性とオープン語彙の一般化とのトレードオフが優れていることがわかった。
関連論文リスト
- GUIDED: Granular Understanding via Identification, Detection, and Discrimination for Fine-Grained Open-Vocabulary Object Detection [54.19989440021701]
細粒度オープン語彙オブジェクト検出(FG-OVD)は属性リッチテキストで記述された新しいオブジェクトカテゴリを検出することを目的としている。
FG-OVDは、非絡み合いモデリングとモジュラー最適化の利点を実証し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2026-03-27T22:08:11Z) - Style-Adaptive Detection Transformer for Single-Source Domain Generalized Object Detection [7.768332621617199]
単一ソースドメインの一般化は、未確認のターゲットドメインによく一般化するソースドメインデータのみを使用して検出器を開発することを目的としている。
既存の手法は主にCNNベースで、データ拡張と機能アライメントを組み合わせることで堅牢性を向上させる。
単一ソース領域の一般化に適したDTRベースの検出器であるStyle-Adaptive Detection TRansformer (SA-DETR)を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:38:37Z) - Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。
既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文 参考訳(メタデータ) (2024-11-06T11:03:02Z) - Source-Free Domain Adaptive Object Detection with Semantics Compensation [54.00183496587841]
Weak-to-strong Semantics Compensation (WSCo)を導入する。
WSCoは、クラス関連セマンティクスを補う。
WSCoは一般的なプラグインとして実装することができ、既存のSFODパイプラインと容易に統合できます。
論文 参考訳(メタデータ) (2024-10-07T23:32:06Z) - Language-Guided Instance-Aware Domain-Adaptive Panoptic Segmentation [44.501770535446624]
汎視的ドメイン適応の鍵となる課題は、ラベル付きソースとラベルなしターゲットドメインの間のドメインギャップを減らすことである。
我々は、新しいクロスドメイン混合戦略IMixによるインスタンスレベル適応の導入に重点を置いている。
LIDAPSと呼ばれる2つのメカニズムを組み込んだエンド・ツー・エンド・エンド・モデルを提案する。
論文 参考訳(メタデータ) (2024-04-04T20:42:49Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Domain Adversarial Fine-Tuning as an Effective Regularizer [80.14528207465412]
自然言語処理(NLP)では、下流タスクに転送される事前訓練された言語モデル(LM)が、最先端の結果を得るために最近示されている。
標準的な微調整は、事前トレーニング中にキャプチャされた汎用ドメイン表現を分解することができる。
本稿では,新しい正規化手法である After; 有効正規化器としてのドメイン・アダクショナル・ファイン・チューニングを提案する。
論文 参考訳(メタデータ) (2020-09-28T14:35:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。