論文の概要: EdaDet: Open-Vocabulary Object Detection Using Early Dense Alignment
- arxiv url: http://arxiv.org/abs/2309.01151v1
- Date: Sun, 3 Sep 2023 12:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 21:13:29.243422
- Title: EdaDet: Open-Vocabulary Object Detection Using Early Dense Alignment
- Title(参考訳): EdaDet: 初期密度アライメントを用いた開語彙オブジェクト検出
- Authors: Cheng Shi and Sibei Yang
- Abstract要約: 本稿では,一般化可能な局所意味論とオブジェクトレベルの予測とのギャップを埋めるために,早期Dense Alignment (EDA)を提案する。
EDAでは、局所的なきめ細かなセマンティクスを維持するために、オブジェクトレベルのアライメントではなく、オブジェクトレベルのインシデントを学習するためにオブジェクトレベルのインシデントを使用します。
- 参考スコア(独自算出の注目度): 28.983503845298824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models such as CLIP have boosted the performance of
open-vocabulary object detection, where the detector is trained on base
categories but required to detect novel categories. Existing methods leverage
CLIP's strong zero-shot recognition ability to align object-level embeddings
with textual embeddings of categories. However, we observe that using CLIP for
object-level alignment results in overfitting to base categories, i.e., novel
categories most similar to base categories have particularly poor performance
as they are recognized as similar base categories. In this paper, we first
identify that the loss of critical fine-grained local image semantics hinders
existing methods from attaining strong base-to-novel generalization. Then, we
propose Early Dense Alignment (EDA) to bridge the gap between generalizable
local semantics and object-level prediction. In EDA, we use object-level
supervision to learn the dense-level rather than object-level alignment to
maintain the local fine-grained semantics. Extensive experiments demonstrate
our superior performance to competing approaches under the same strict setting
and without using external training resources, i.e., improving the +8.4% novel
box AP50 on COCO and +3.9% rare mask AP on LVIS.
- Abstract(参考訳): CLIPのような視覚言語モデルにより、オープン語彙オブジェクト検出の性能が向上し、検出器はベースカテゴリに基づいて訓練されるが、新しいカテゴリを検出する必要がある。
既存の手法では、CLIPの強力なゼロショット認識機能を利用して、オブジェクトレベルの埋め込みとカテゴリのテキスト埋め込みを整列する。
しかし、CLIPをオブジェクトレベルのアライメントに使用すると、ベースカテゴリに過度に適合する、すなわち、ベースカテゴリに最もよく似た新しいカテゴリは、類似したベースカテゴリとして認識されるため、特に性能が劣っている。
本稿では,まず,重要な局所画像意味論の欠如が,従来の手法が強大なベース・ツー・ノーベル一般化を実現するのを妨げていることを確かめる。
そこで我々は,一般化可能な局所意味論とオブジェクトレベルの予測とのギャップを埋めるために,Early Dense Alignment (EDA)を提案する。
EDAでは、局所的なきめ細かなセマンティクスを維持するために、オブジェクトレベルのアライメントではなく、オブジェクトレベルのインシデントを学習するためにオブジェクトレベルのインシデントを使用します。
大規模な実験では、同じ厳密な条件下で、外部のトレーニングリソースを使わずに、COCOの+8.4%の新規AP50とLVISの+3.9%のレアマスクAPを改善した。
関連論文リスト
- SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection [31.464227593768324]
本稿ではセマンティック階層Nexus(SHiNe)について紹介する。
SHiNeは様々な語彙の粒度をまたいだ堅牢性を高め、+31.9%のmAP50と基底的真理階層を達成している。
SHiNeは無訓練で、市販のOvOD検出器とシームレスに統合できる。
論文 参考訳(メタデータ) (2024-05-16T12:42:06Z) - Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label [7.400926717561454]
本稿では,弱教師付きオブジェクトローカライゼーションの枠組みについて検討する。
それは、画像と画像レベルのクラスラベルのみを使用して、オブジェクトクラスとその位置を予測できるニューラルネットワークをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2024-04-15T06:02:09Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [73.39366775301382]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - DiGeo: Discriminative Geometry-Aware Learning for Generalized Few-Shot
Object Detection [39.937724871284665]
汎用的な少ショットオブジェクト検出は、豊富なアノテーションと限られたトレーニングデータを持つ新しいクラスで、両方のベースクラス上で正確な検出を実現することを目的としている。
既存のアプローチは、ベースクラスのパフォーマンスを犠牲にして、数ショットの一般化を促進する。
クラス間分離とクラス内コンパクト性の幾何学的特徴を学習するための新しいトレーニングフレームワークDiGeoを提案する。
論文 参考訳(メタデータ) (2023-03-16T22:37:09Z) - CapDet: Unifying Dense Captioning and Open-World Detection Pretraining [68.8382821890089]
本稿では,所定のカテゴリリストに基づいて予測するか,あるいは予測された境界ボックスのカテゴリを直接生成する,CapDetという新しいオープンワールド検出器を提案する。
具体的には,オープンワールド検出と高密度キャプションタスクを,付加的な高密度キャプションヘッドを導入することで,単一の効果的なフレームワークに統合する。
論文 参考訳(メタデータ) (2023-03-04T19:53:00Z) - Fine-grained Category Discovery under Coarse-grained supervision with
Hierarchical Weighted Self-contrastive Learning [37.6512548064269]
粗粒度監視(FCDC)下での細粒度カテゴリー発見という新たな実践シナリオについて検討する。
FCDCは、粗いラベル付きデータのみを用いて、既知のデータと異なる粒度のカテゴリにモデルを適応させ、かなりのラベル付けコストを削減できるきめ細かなカテゴリを発見することを目的としている。
本稿では,新しい重み付き自己コントラストモジュールを構築し,それを階層的に教師付き学習と組み合わせることで,階層型自己コントラストネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T12:06:23Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - Open Vocabulary Object Detection with Proposal Mining and Prediction
Equalization [73.14053674836838]
Open-vocabulary Object Detection (OVD)は、学習語彙以外の新しいカテゴリのオブジェクトを検出するために、語彙サイズを拡大することを目的としている。
最近の研究は、事前訓練された視覚言語モデルにおける豊富な知識に頼っている。
本稿では,提案するマイニングと予測等化を備えた新しいOVDフレームワークMEDetを提案する。
論文 参考訳(メタデータ) (2022-06-22T14:30:41Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z) - Towards Novel Target Discovery Through Open-Set Domain Adaptation [73.81537683043206]
オープンソースドメイン適応(OSDA)は、ターゲットドメインが外部のソースドメインでは観察できない新しいカテゴリのサンプルを含むと考えている。
対象領域に見られるカテゴリを正確に識別し,未知のカテゴリのセマンティクス特性を効果的に回復するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-06T04:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。