論文の概要: SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2405.10053v1
- Date: Thu, 16 May 2024 12:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 14:12:27.849555
- Title: SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection
- Title(参考訳): SHiNe:オープンボキャブラリオブジェクト検出のためのセマンティック階層Nexus
- Authors: Mingxuan Liu, Tyler L. Hayes, Elisa Ricci, Gabriela Csurka, Riccardo Volpi,
- Abstract要約: 本稿ではセマンティック階層Nexus(SHiNe)について紹介する。
SHiNeは様々な語彙の粒度をまたいだ堅牢性を高め、+31.9%のmAP50と基底的真理階層を達成している。
SHiNeは無訓練で、市販のOvOD検出器とシームレスに統合できる。
- 参考スコア(独自算出の注目度): 31.464227593768324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary object detection (OvOD) has transformed detection into a language-guided task, empowering users to freely define their class vocabularies of interest during inference. However, our initial investigation indicates that existing OvOD detectors exhibit significant variability when dealing with vocabularies across various semantic granularities, posing a concern for real-world deployment. To this end, we introduce Semantic Hierarchy Nexus (SHiNe), a novel classifier that uses semantic knowledge from class hierarchies. It runs offline in three steps: i) it retrieves relevant super-/sub-categories from a hierarchy for each target class; ii) it integrates these categories into hierarchy-aware sentences; iii) it fuses these sentence embeddings to generate the nexus classifier vector. Our evaluation on various detection benchmarks demonstrates that SHiNe enhances robustness across diverse vocabulary granularities, achieving up to +31.9% mAP50 with ground truth hierarchies, while retaining improvements using hierarchies generated by large language models. Moreover, when applied to open-vocabulary classification on ImageNet-1k, SHiNe improves the CLIP zero-shot baseline by +2.8% accuracy. SHiNe is training-free and can be seamlessly integrated with any off-the-shelf OvOD detector, without incurring additional computational overhead during inference. The code is open source.
- Abstract(参考訳): Open-vocabulary Object Detection (OvOD) は言語誘導タスクに変換され、ユーザーは推論中に興味のあるクラス語彙を自由に定義できるようになる。
しかし,本研究では,既存のOvOD検出器が様々な意味的粒度にまたがる語彙を扱う際に大きな変動を示し,実世界の展開に懸念を抱いていることを示唆している。
この目的のために,セマンティック階層Nexus(SHiNe)を紹介した。
3つのステップでオフラインで実行されます。
一 対象クラスの階層から関連するスーパー/サブカテゴリを検索すること。
二 これらの分類を階層対応の文に統合すること。
三 この文の埋め込みを融合させ、ネクサス分類器ベクターを生成すること。
各種検出ベンチマークによる評価から,SHiNeは多種多様な語彙の粒度にまたがって頑健性を向上し,+31.9%のmAP50を基底的真理階層で達成し,大規模言語モデルで生成した階層による改善を維持した。
さらに、ImageNet-1kのオープン語彙分類に適用すると、SHiNeはCLIPゼロショットベースラインを+2.8%精度で改善する。
SHiNeはトレーニング不要であり、推論中にさらなる計算オーバーヘッドを発生させることなく、市販のOvOD検出器とシームレスに統合することができる。
コードはオープンソースです。
関連論文リスト
- Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - OpenSD: Unified Open-Vocabulary Segmentation and Detection [24.08879095731279]
オープン語彙のセグメンテーションと検出タスクを処理するために,OpenSDと略されるユニバーサルトランスフォーマーベースのフレームワークを提案する。
エンドツーエンドのセグメンテーションと検出にCLIPをよりよく活用するために、語彙内ドメインと語彙外ドメインを扱うための2つの分類器を提案する。
その結果,OpenSDはクローズド・オープン・ボキャブラリ設定とオープン・ボキャブラリ設定の両方において,最先端のオープン・ボキャブラリセグメンテーションと検出方法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-10T08:51:34Z) - EdaDet: Open-Vocabulary Object Detection Using Early Dense Alignment [28.983503845298824]
本稿では,一般化可能な局所意味論とオブジェクトレベルの予測とのギャップを埋めるために,早期Dense Alignment (EDA)を提案する。
EDAでは、局所的なきめ細かなセマンティクスを維持するために、オブジェクトレベルのアライメントではなく、オブジェクトレベルのインシデントを学習するためにオブジェクトレベルのインシデントを使用します。
論文 参考訳(メタデータ) (2023-09-03T12:04:14Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Learning to Detect and Segment for Open Vocabulary Object Detection [6.678101044494558]
オープン語彙設定のためのボックス回帰とマスクセグメンテーションをより一般化する,原理的動的ネットワーク設計を提案する。
CondHeadは2つのネットワークヘッド、動的に集約されたヘッドと動的に生成されたヘッドで構成されている。
提案手法は,非常に少ないオーバーヘッドで,最先端のオープン語彙オブジェクト検出手法に大幅な改善をもたらす。
論文 参考訳(メタデータ) (2022-12-23T03:54:59Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Exploiting a Joint Embedding Space for Generalized Zero-Shot Semantic
Segmentation [25.070027668717422]
一般化ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、見えないクラスと見えないクラスのピクセルワイズセマンティックラベルを予測する。
ほとんどのGZS3メソッドは、対応するセマンティックなクラスから見えないクラスの視覚的特徴を合成する生成的アプローチを採用している。
統一されたフレームワークにおける制限に対処するための差別的アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-14T13:33:58Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。