論文の概要: DSAA: Dual-Stage Attribute Activation for Fine-grained Open Vocabulary Detection
- arxiv url: http://arxiv.org/abs/2605.18023v1
- Date: Mon, 18 May 2026 08:13:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.112063
- Title: DSAA: Dual-Stage Attribute Activation for Fine-grained Open Vocabulary Detection
- Title(参考訳): DSAA-Dual-Stage Attribute Activation for Fine-fine Open Vocabulary Detection
- Authors: Donghong Jiang, Endian Lin, Hanqing Liu, Mingjie Liu, Luoping Cui, Zhao Yang, Chuang Zhu,
- Abstract要約: Open-Vocabulary Object Detection (OVD)モデルはクローズドセット検出の限界を破る。
色、マテリアル、テクスチャなどの属性を含む、きめ細かい検出タスクには、顕著な制限がある。
本稿では,微粒化検出キャパビリティを向上するDual-Stage Attribute Activationフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.512210722250236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Vocabulary Object Detection (OVD) models break the limitations of closed-set detection, enabling the iden- tification of unseen categories through natural language prompts. However, they exhibit notable limitations in fine- grained detection tasks involving attributes like color, ma- terial, and texture. We attribute this performance bottle- neck in OVD models to a core issue: when category sig- nals dominate, OVD models tend to marginalize attribute information during inference. This leads to incorrect bind- ing between attributes and target objects. To address this, we propose the Dual-Stage Attribute Activation (DSAA) framework, which enhances fine-grained detection capa- bilities by strengthening attribute semantics at two criti- cal stages. In the text embedding stage, we employ At- tribute Prefix Adapter (APA) module to generate attribute prefixes that inject explicit attribute priors. To further am- plify the influence of these attributes, our Key/Value (K/V) Modulator module then intervenes during the BERT encod- ing phase, selectively enhancing the Key and Value vec- tors of the corresponding attribute tokens. In addition, we introduce an attribute-aware contrastive loss to improve discrimination among same-category instances with differ- ent attributes during training. Experimental results on the FG-OVD benchmark demonstrate the effectiveness of our method across various mainstream open-vocabulary mod- els.
- Abstract(参考訳): Open-Vocabulary Object Detection (OVD)モデルは、クローズドセット検出の限界を破り、自然言語のプロンプトを通じて未知のカテゴリを識別することを可能にする。
しかし、色、マテリアル、テクスチャなどの属性を含むきめ細かい検出タスクには、顕著な制限がある。
我々は,OVDモデルにおけるこの性能ボトルネックが中心的な問題であると考えている。
これにより、属性とターゲットオブジェクト間の間違ったバインド・イングが発生します。
そこで本稿では,2つのクリティカル段階における属性セマンティクスを強化することにより,キャパビリティの微細化を図ったDSAA(Dual-Stage Attribute Activation)フレームワークを提案する。
テキスト埋め込みの段階では、At-tribute Prefix Adapter (APA) モジュールを使用して、明示的な属性プレフィックスを注入する属性プレフィックスを生成する。
これらの属性の影響をさらに改善するため、私たちのKey/Value (K/V) ModulatorモジュールはBERTエンコード-ingフェーズで介入し、対応する属性トークンのKey and Value vec-torsを選択的に拡張します。
さらに,学習中に異なる属性を持つ同一カテゴリインスタンスの識別を改善するために,属性認識によるコントラスト損失を導入する。
FG-OVDベンチマークによる実験結果から,本手法の有効性が示された。
関連論文リスト
- FACTOR: Counterfactual Training-Free Test-Time Adaptation for Open-Vocabulary Object Detection [63.91351553178842]
FACTORはオープン語彙オブジェクト検出のためのトレーニング不要なテスト時間適応である。
属性依存性の予測を選択的に抑制するために、属性の感度、意味的関連性、予測のバリエーションを定量化する。
PASCAL-C, COCO-C, FoggyCityscapes の実験では、FACTOR が従来の TTA 法より一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2026-05-05T02:31:18Z) - GUIDED: Granular Understanding via Identification, Detection, and Discrimination for Fine-Grained Open-Vocabulary Object Detection [54.19989440021701]
細粒度オープン語彙オブジェクト検出(FG-OVD)は属性リッチテキストで記述された新しいオブジェクトカテゴリを検出することを目的としている。
FG-OVDは、非絡み合いモデリングとモジュラー最適化の利点を実証し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2026-03-27T22:08:11Z) - What Makes You Unique? Attribute Prompt Composition for Object Re-Identification [70.67907354506278]
Object Re-IDentificationは、重複しないカメラビューで個人を認識することを目的としている。
単一ドメインモデルはドメイン固有の機能に過度に適合する傾向がありますが、クロスドメインモデルは多種多様な正規化戦略に依存します。
本稿では,テキストのセマンティクスを利用して識別と一般化を協調的に強化する属性プロンプト合成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T07:03:08Z) - Compositional Caching for Training-free Open-vocabulary Attribute Detection [65.46250297408974]
オープンボキャブラリ属性検出のためのトレーニング不要なComcal Caching(ComCa)を提案する。
ComCaは、イメージの補助キャッシュをポップアップするために、ターゲット属性とオブジェクトのリストのみを入力として使用する。
パブリックデータセットの実験では、ComCaがゼロショットとキャッシュベースのベースラインを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2025-03-24T21:00:37Z) - Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。
トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。
HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。
提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文 参考訳(メタデータ) (2024-11-28T09:50:25Z) - CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection [30.286598189230396]
Class-Agnostic Shared Attribute Baseは、インクリメンタルクラス間で共有されるカテゴリに依存しない属性を学ぶことをモデルに推奨する。
その後のタスクでは、保持された属性は凍結され、残りの候補から新しい属性が選択される。
COCOデータセットの実験により,本手法の最先端性能が実証された。
論文 参考訳(メタデータ) (2024-10-08T08:36:12Z) - HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection [11.792370846774133]
そこで本研究では,その属性レベル検出能力を向上するフリーズメインストリームOVDモデルに対して,普遍的で明示的なアプローチを提案する。
提案手法は, 各種主流モデルの細粒度特性レベルOVDを均一に改善し, 新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2024-09-24T14:43:14Z) - Disentangled Face Attribute Editing via Instance-Aware Latent Space
Search [30.17338705964925]
GAN(Generative Adversarial Networks)の潜在空間には、意味的な方向性の豊富な集合が存在する。
既存のメソッドは属性のばらつきが弱いため、望ましい属性を変更する際には、他の属性が望ましくない変更になる可能性がある。
本稿では,不整合属性編集のセマンティックな方向を求めるために,インスタンス認識遅延空間探索を行う新しいフレームワーク(IALS)を提案する。
論文 参考訳(メタデータ) (2021-05-26T16:19:08Z) - Attribute-based Regularization of Latent Spaces for Variational
Auto-Encoders [79.68916470119743]
本稿では,変分オートエンコーダ(VAE)の潜時空間を,連続値の異なる属性を明示的に符号化する新しい手法を提案する。
これは属性の正規化損失を使用して、属性値と属性が符号化される次元の潜在符号との単調な関係を強制する。
論文 参考訳(メタデータ) (2020-04-11T20:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。