論文の概要: Retrieval-Augmented Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2404.05687v1
- Date: Mon, 8 Apr 2024 17:10:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 13:36:07.617803
- Title: Retrieval-Augmented Open-Vocabulary Object Detection
- Title(参考訳): 検索型オープン語彙オブジェクト検出
- Authors: Jooyeon Kim, Eulrang Cho, Sehyung Kim, Hyunwoo J. Kim,
- Abstract要約: 検索型付加損失と視覚特徴量(RALF)を提案する。
RALFは関連する"負の"クラスを検索し、損失関数を増強する。
ビジュアル機能は、クラスの'言語化された概念'で拡張されます。
- 参考スコア(独自算出の注目度): 16.31073526956557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary object detection (OVD) has been studied with Vision-Language Models (VLMs) to detect novel objects beyond the pre-trained categories. Previous approaches improve the generalization ability to expand the knowledge of the detector, using 'positive' pseudo-labels with additional 'class' names, e.g., sock, iPod, and alligator. To extend the previous methods in two aspects, we propose Retrieval-Augmented Losses and visual Features (RALF). Our method retrieves related 'negative' classes and augments loss functions. Also, visual features are augmented with 'verbalized concepts' of classes, e.g., worn on the feet, handheld music player, and sharp teeth. Specifically, RALF consists of two modules: Retrieval Augmented Losses (RAL) and Retrieval-Augmented visual Features (RAF). RAL constitutes two losses reflecting the semantic similarity with negative vocabularies. In addition, RAF augments visual features with the verbalized concepts from a large language model (LLM). Our experiments demonstrate the effectiveness of RALF on COCO and LVIS benchmark datasets. We achieve improvement up to 3.4 box AP$_{50}^{\text{N}}$ on novel categories of the COCO dataset and 3.6 mask AP$_{\text{r}}$ gains on the LVIS dataset. Code is available at https://github.com/mlvlab/RALF .
- Abstract(参考訳): Open-vocabulary Object Detection (OVD) はVision-Language Models (VLM) を用いて、事前訓練されたカテゴリを超えて新しいオブジェクトを検出するために研究されている。
以前のアプローチでは、検知器の知識を拡大する一般化能力を改善し、eg、ソック、iPod、アリゲータといった「クラス」名前の「陽性」擬似ラベルを使用した。
従来の手法を2つの側面で拡張するために,検索機能の拡張と視覚的特徴(RALF)を提案する。
本手法は, 関連する「負」クラスを検索し, 損失関数を増大させる。
また、視覚的特徴は、例えば足に装着する「言語概念」、ハンドヘルド・ミュージック・プレイヤー、鋭い歯で強化される。
具体的には、ralFはRetrieval Augmented Losses (RAL)とRetrieval-Augmented Visual Features (RAF)の2つのモジュールで構成される。
RALは、負の語彙と意味的類似性を反映した2つの損失を構成する。
さらに、RAFは、大きな言語モデル(LLM)から言語化された概念で視覚的特徴を強化する。
実験では,COCOおよびLVISベンチマークデータセットに対するALFの有効性を実証した。
我々は、COCOデータセットの新しいカテゴリの3.4ボックスAP$_{50}^{\text{N}}$とLVISデータセットの3.6マスクAP$_{\text{r}}$ゲインの改善を達成する。
コードはhttps://github.com/mlvlab/RALF で公開されている。
関連論文リスト
- DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines [67.44394651662738]
細粒度画像検索(FGIR)は、一般化を維持しながら視覚的に類似した物体を識別する視覚表現を学習することである。
既存の方法は識別的特徴を生成することを提案するが、FGIRタスク自体の特異性を考えることは滅多にない。
本稿では, サブカテゴリ固有の不一致を識別し, 効果的なFGIRモデルを設計するための識別的特徴を生成するための実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-24T09:45:12Z) - Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive Optimization [63.66349334291372]
本稿ではメタプロンプトとインスタンスコントラスト学習(MIC)方式を用いたフレームワークを提案する。
まず、クラスとバックグラウンドのプロンプトを学習するプロンプトが新しいクラスに一般化するのを助けるために、新しいクラスエマージシナリオをシミュレートする。
第二に、クラス内コンパクト性とクラス間分離を促進するためのインスタンスレベルのコントラスト戦略を設計し、新しいクラスオブジェクトに対する検出器の一般化に寄与する。
論文 参考訳(メタデータ) (2024-03-14T14:25:10Z) - Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning [13.667326007851674]
本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
論文 参考訳(メタデータ) (2023-11-20T10:26:04Z) - What Makes Good Open-Vocabulary Detector: A Disassembling Perspective [6.623703413255309]
Open-vocabulary Detection (OVD)は、新しいオブジェクト検出パラダイムである。
先行研究は主にオープン語彙分類部に焦点をあて、ローカライゼーション部分にはあまり注意を払わなかった。
本研究は, 局所化とクロスモーダル分類の改善が相互に補完し, 良好なOVD検出器を共同で構成することを示す。
論文 参考訳(メタデータ) (2023-09-01T03:03:50Z) - Going Denser with Open-Vocabulary Part Segmentation [38.395986723880505]
開語彙オブジェクトとその部分セグメンテーションの両方を予測することができる検出器を提案する。
まず、部分レベル、オブジェクトレベル、画像レベルのデータのジョイント上で検出器を訓練し、言語と画像間の多粒度アライメントを構築する。
第二に、新しいオブジェクトを、ベースオブジェクトとの密接なセマンティック対応によって、そのパーツにパースする。
論文 参考訳(メタデータ) (2023-05-18T17:59:10Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language
Models [54.21757555804668]
F-VLMは,凍結視覚と言語モデルに基づくシンプルなオープン語彙オブジェクト検出手法である。
F-VLMは、知識蒸留や検出調整事前訓練の必要性を排除し、現在の多段階訓練パイプラインを単純化する。
論文 参考訳(メタデータ) (2022-09-30T17:59:52Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。