論文の概要: Test-time Vocabulary Adaptation for Language-driven Object Detection
- arxiv url: http://arxiv.org/abs/2506.00333v1
- Date: Sat, 31 May 2025 01:15:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.785367
- Title: Test-time Vocabulary Adaptation for Language-driven Object Detection
- Title(参考訳): 言語駆動型物体検出のためのテスト時間語彙適応
- Authors: Mingxuan Liu, Tyler L. Hayes, Massimiliano Mancini, Elisa Ricci, Riccardo Volpi, Gabriela Csurka,
- Abstract要約: 本稿では,ユーザ定義語彙を改良するためのVocAda(VocAda)を提案する。
VocAdaはトレーニングを一切必要とせず、推論時に3つのステップで動作します。
COCOとObjects365の3つの最先端検出器による実験は、VocAdaが一貫して性能を改善していることを示している。
- 参考スコア(独自算出の注目度): 42.25065847785535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary object detection models allow users to freely specify a class vocabulary in natural language at test time, guiding the detection of desired objects. However, vocabularies can be overly broad or even mis-specified, hampering the overall performance of the detector. In this work, we propose a plug-and-play Vocabulary Adapter (VocAda) to refine the user-defined vocabulary, automatically tailoring it to categories that are relevant for a given image. VocAda does not require any training, it operates at inference time in three steps: i) it uses an image captionner to describe visible objects, ii) it parses nouns from those captions, and iii) it selects relevant classes from the user-defined vocabulary, discarding irrelevant ones. Experiments on COCO and Objects365 with three state-of-the-art detectors show that VocAda consistently improves performance, proving its versatility. The code is open source.
- Abstract(参考訳): オープンボキャブラリオブジェクト検出モデルは、テスト時に自然言語でクラスボキャブラリを自由に指定することができ、所望のオブジェクトの検出を導く。
しかし、語彙は極端に広すぎるか、あるいは誤って定義される可能性があり、検出器の全体的な性能を妨げている。
本研究では,ユーザ定義語彙を改良するVocAda(VocAda)を提案する。
VocAdaはトレーニングを一切必要とせず、推論時に3つのステップで動作します。
一 画像キャプタを用いて可視物を記述すること。
二 そのキャプションから名詞を解析し、
三 ユーザ定義語彙から関連するクラスを選択し、無関係なものを捨てる。
COCOとObjects365の3つの最先端検出器による実験は、VocAdaが一貫して性能を改善し、その汎用性を証明していることを示している。
コードはオープンソースです。
関連論文リスト
- From Open-Vocabulary to Vocabulary-Free Semantic Segmentation [78.62232202171919]
オープン語彙セマンティックセグメンテーションにより、モデルはトレーニングデータ以外の新しいオブジェクトカテゴリを識別できる。
現在のアプローチは依然として入力として手動で指定されたクラス名に依存しており、現実世界のアプリケーションに固有のボトルネックを生み出している。
この研究は、定義済みのクラス語彙を必要としない、語彙自由セマンティックパイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T15:17:08Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - V3Det: Vast Vocabulary Visual Detection Dataset [69.50942928928052]
V3Detは巨大なボキャブラリの視覚検出データセットで、大量の画像に正確に注釈付けされたバウンディングボックスがある。
広大な探索空間を提供することで、V3Detは広大かつオープンな語彙オブジェクト検出に関する広範なベンチマークを可能にする。
論文 参考訳(メタデータ) (2023-04-07T17:45:35Z) - Open-Vocabulary Object Detection using Pseudo Caption Labels [3.260777306556596]
よりきめ細かいラベルは、新しいオブジェクトに関するより豊かな知識を引き出すために必要である、と我々は主張する。
分離されたVisualGenomeデータセットでトレーニングされた最良のモデルは、APが34.5、APrが30.6で、最先端のパフォーマンスに匹敵する。
論文 参考訳(メタデータ) (2023-03-23T05:10:22Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。