論文の概要: GUIDED: Granular Understanding via Identification, Detection, and Discrimination for Fine-Grained Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2603.27014v1
- Date: Fri, 27 Mar 2026 22:08:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.736292
- Title: GUIDED: Granular Understanding via Identification, Detection, and Discrimination for Fine-Grained Open-Vocabulary Object Detection
- Title(参考訳): GUIDED:細粒度開語彙オブジェクト検出のための識別・検出・識別による粒界理解
- Authors: Jiaming Li, Zhijia Liang, Weikai Chen, Lin Ma, Guanbin Li,
- Abstract要約: 細粒度オープン語彙オブジェクト検出(FG-OVD)は属性リッチテキストで記述された新しいオブジェクトカテゴリを検出することを目的としている。
FG-OVDは、非絡み合いモデリングとモジュラー最適化の利点を実証し、新しい最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 54.19989440021701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained open-vocabulary object detection (FG-OVD) aims to detect novel object categories described by attribute-rich texts. While existing open-vocabulary detectors show promise at the base-category level, they underperform in fine-grained settings due to the semantic entanglement of subjects and attributes in pretrained vision-language model (VLM) embeddings -- leading to over-representation of attributes, mislocalization, and semantic drift in embedding space. We propose GUIDED, a decomposition framework specifically designed to address the semantic entanglement between subjects and attributes in fine-grained prompts. By separating object localization and fine-grained recognition into distinct pathways, HUIDED aligns each subtask with the module best suited for its respective roles. Specifically, given a fine-grained class name, we first use a language model to extract a coarse-grained subject and its descriptive attributes. Then the detector is guided solely by the subject embedding, ensuring stable localization unaffected by irrelevant or overrepresented attributes. To selectively retain helpful attributes, we introduce an attribute embedding fusion module that incorporates attribute information into detection queries in an attention-based manner. This mitigates over-representation while preserving discriminative power. Finally, a region-level attribute discrimination module compares each detected region against full fine-grained class names using a refined vision-language model with a projection head for improved alignment. Extensive experiments on FG-OVD and 3F-OVD benchmarks show that GUIDED achieves new state-of-the-art results, demonstrating the benefits of disentangled modeling and modular optimization. Our code will be released at https://github.com/lijm48/GUIDED.
- Abstract(参考訳): 細粒度オープン語彙オブジェクト検出(FG-OVD)は属性リッチテキストで記述された新しいオブジェクトカテゴリを検出することを目的としている。
既存のオープンボキャブラリ検出器はベースカテゴリレベルでの約束を示す一方で、事前訓練された視覚言語モデル(VLM)埋め込みにおける対象と属性のセマンティックな絡み合いによるきめ細かい設定では、属性の過剰表現、非局在化、埋め込み空間でのセマンティックドリフトなど、パフォーマンスが低い。
対象と属性間の意味的絡み合いを微粒なプロンプトで解決するための分解フレームワークGUIDEDを提案する。
物体の局在化と微粒化認識を別々の経路に分離することにより、HUIDEDは各サブタスクをそれぞれの役割に適したモジュールと整列させる。
具体的には、クラス名がきめ細かい場合、まず言語モデルを用いて、粗い被写体とその記述的属性を抽出する。
そして、検出器を被写体埋め込みのみでガイドし、無関係または過剰表現の属性の影響を受けない安定した位置決めを確保する。
有用な属性を選択的に保持するために,属性情報を注目方式で検出クエリに組み込む属性埋め込み融合モジュールを導入する。
これは差別力を保ちながら過剰表現を緩和する。
最後に、領域レベルの属性判別モジュールは、修正された視覚言語モデルと投影ヘッドを用いて検出された各領域を、完全な粒度クラス名と比較し、アライメントを改善した。
FG-OVDと3F-OVDベンチマークの大規模な実験は、GUIDEDが新しい最先端の結果を達成し、不整合モデリングとモジュラー最適化の利点を実証していることを示している。
私たちのコードはhttps://github.com/lijm48/GUIDEDでリリースされます。
関連論文リスト
- Language-driven Fine-grained Retrieval [56.619978313798875]
LaFGは、Fine-Grained Retrievalのための言語駆動フレームワークである。
クラス名を大きな言語モデルと視覚言語モデルを使用して属性レベルの監視に変換する。
グローバルプロンプトテンプレートは、カテゴリ固有の言語プロトタイプに集約されたカテゴリ関連属性を選択する。
論文 参考訳(メタデータ) (2025-12-06T02:56:55Z) - What Makes You Unique? Attribute Prompt Composition for Object Re-Identification [70.67907354506278]
Object Re-IDentificationは、重複しないカメラビューで個人を認識することを目的としている。
単一ドメインモデルはドメイン固有の機能に過度に適合する傾向がありますが、クロスドメインモデルは多種多様な正規化戦略に依存します。
本稿では,テキストのセマンティクスを利用して識別と一般化を協調的に強化する属性プロンプト合成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T07:03:08Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [78.73711446918814]
我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAGReIDの性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - Real Classification by Description: Extending CLIP's Limits of Part Attributes Recognition [1.2499537119440243]
本稿では,視覚言語モデル(VLM)がオブジェクトのクラス名を除いた記述的属性のみに基づいてオブジェクトを分類する能力を評価する新しいタスクである記述によるゼロショットの「リアル」分類に取り組む。
我々は、オブジェクト名を省略し、真にゼロショット学習を促進する6つの人気のあるきめ細かいベンチマークに関する記述データをリリースする。
修正されたCLIPアーキテクチャを導入し、複数の解像度を活用し、きめ細かい部分属性の検出を改善する。
論文 参考訳(メタデータ) (2024-12-18T15:28:08Z) - The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding [8.448399308205266]
本研究では,動的語彙生成に基づく評価プロトコルを導入し,モデルがオブジェクトに対して正確な粒度記述を検出し,識別し,割り当てるかどうかを検証する。
提案プロトコルを用いて,最先端のオープンボキャブラリオブジェクト検出器を複数評価することにより,研究をさらに強化する。
論文 参考訳(メタデータ) (2023-11-29T10:40:52Z) - Attribute Localization and Revision Network for Zero-Shot Learning [13.530912616208722]
ゼロショット学習により、モデルは属性などの補助的な意味情報の助けを借りて、目に見えないカテゴリを認識できる。
本稿では,局所的な特徴とグローバルな特徴の選択がゼロサムゲームではなく,グローバルな特徴が属性の理解に寄与することを発見した。
論文 参考訳(メタデータ) (2023-10-11T14:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。