論文の概要: Open-vocabulary vs. Closed-set: Best Practice for Few-shot Object Detection Considering Text Describability
- arxiv url: http://arxiv.org/abs/2410.15315v1
- Date: Sun, 20 Oct 2024 06:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:45.238417
- Title: Open-vocabulary vs. Closed-set: Best Practice for Few-shot Object Detection Considering Text Describability
- Title(参考訳): オープン語彙対クローズドセット:テキスト記述性を考慮したFew-shotオブジェクト検出のベストプラクティス
- Authors: Yusuke Hosoya, Masanori Suganuma, Takayuki Okatani,
- Abstract要約: 現実世界のアプリケーションでは、ターゲットクラスの概念をテキストで記述することはしばしば困難である。
マイクロショット物体検出(FSOD)の需要が高い。
OVDの利点は、テキストで記述するのが難しいオブジェクトクラスに対してFSODに拡張できるだろうか?
- 参考スコア(独自算出の注目度): 19.54008511592332
- License:
- Abstract: Open-vocabulary object detection (OVD), detecting specific classes of objects using only their linguistic descriptions (e.g., class names) without any image samples, has garnered significant attention. However, in real-world applications, the target class concepts is often hard to describe in text and the only way to specify target objects is to provide their image examples, yet it is often challenging to obtain a good number of samples. Thus, there is a high demand from practitioners for few-shot object detection (FSOD). A natural question arises: Can the benefits of OVD extend to FSOD for object classes that are difficult to describe in text? Compared to traditional methods that learn only predefined classes (referred to in this paper as closed-set object detection, COD), can the extra cost of OVD be justified? To answer these questions, we propose a method to quantify the ``text-describability'' of object detection datasets using the zero-shot image classification accuracy with CLIP. This allows us to categorize various OD datasets with different text-describability and emprically evaluate the FSOD performance of OVD and COD methods within each category. Our findings reveal that: i) there is little difference between OVD and COD for object classes with low text-describability under equal conditions in OD pretraining; and ii) although OVD can learn from more diverse data than OD-specific data, thereby increasing the volume of training data, it can be counterproductive for classes with low-text-describability. These findings provide practitioners with valuable guidance amidst the recent advancements of OVD methods.
- Abstract(参考訳): OVD(Open-vocabulary Object Detection)は、画像サンプルを使わずに、言語的記述(例えば、クラス名)のみを用いてオブジェクトの特定のクラスを検出することで、注目を集めている。
しかし、現実世界のアプリケーションでは、ターゲットクラスの概念をテキストで記述することは困難であり、ターゲットオブジェクトを指定する唯一の方法は、イメージサンプルを提供することであるが、多くのサンプルを取得することはしばしば困難である。
したがって、小ショット物体検出(FSOD)の実践者からは高い需要がある。
OVDの利点は、テキストで記述するのが難しいオブジェクトクラスに対してFSODに拡張できますか?
事前定義されたクラスのみを学習する従来の方法(この論文ではクローズドセットオブジェクト検出(COD)と呼ぶ)と比較して、OVDの余剰コストは正当化できるだろうか?
これらの疑問に答えるために,CLIPを用いたゼロショット画像分類精度を用いて,オブジェクト検出データセットの `text-discribability'' を定量化する手法を提案する。
これにより、テキスト記述性が異なる様々なODデータセットを分類し、各カテゴリにおけるOVDおよびCOD法のFSOD性能を実証的に評価できる。
私たちの発見は、こう示しています。
一 OVD と COD の差は、OD 事前訓練における等条件下での低テキスト記述性オブジェクトに対してほとんどない。
二 OVDは、OD固有のデータよりも多様なデータから学習することができ、トレーニングデータの量を増やすことができるが、低テキスト記述率のクラスでは非生産的である。
これらの知見は,近年のOVD法の進歩にともなって,実践者たちに貴重なガイダンスを与えるものである。
関連論文リスト
- Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - Beyond Few-shot Object Detection: A Detailed Survey [25.465534270637523]
研究者たちは、数発の学習とオブジェクト検出の原則を融合させる、数発のオブジェクト検出(FSOD)アプローチを導入した。
これらのアプローチは、広範なラベル付きデータセットへの依存を減らす上で重要な役割を果たす。
本研究の目的は,上記の数ショット設定を包括的に理解し,各FSODタスクの方法論を探索することである。
論文 参考訳(メタデータ) (2024-08-26T13:09:23Z) - Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection [101.15777242546649]
Open vocabulary Object Detection (OVD) は、ベースと新規の両方のカテゴリからオブジェクトを認識できる最適なオブジェクト検出器を求めることを目的としている。
近年の進歩は、知識蒸留を利用して、事前訓練された大規模視覚言語モデルからオブジェクト検出のタスクに洞察力のある知識を伝達している。
本稿では,暗黙的背景知識を活用するための学習バックグラウンドプロンプトを提案するため,LBPと呼ばれる新しいOVDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T17:32:26Z) - The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding [8.448399308205266]
本研究では,動的語彙生成に基づく評価プロトコルを導入し,モデルがオブジェクトに対して正確な粒度記述を検出し,識別し,割り当てるかどうかを検証する。
提案プロトコルを用いて,最先端のオープンボキャブラリオブジェクト検出器を複数評価することにより,研究をさらに強化する。
論文 参考訳(メタデータ) (2023-11-29T10:40:52Z) - Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning [13.667326007851674]
本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
論文 参考訳(メタデータ) (2023-11-20T10:26:04Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Described Object Detection: Liberating Object Detection with Flexible
Expressions [19.392927971139652]
オープンボキャブラリオブジェクト検出(OVD)とReferring Expression(REC)を記述対象検出(DOD)に進める。
本稿では,カテゴリ名を OVD のフレキシブル言語表現に拡張することで,より実践的な "Description Object Detection (DOD)" へと前進させる。
このデータセットは、短いカテゴリ名や長い記述など、柔軟な言語表現と、省略せずにすべての画像に記述されたすべてのオブジェクトに注釈を付ける。
論文 参考訳(メタデータ) (2023-07-24T14:06:54Z) - Learning Dense Object Descriptors from Multiple Views for Low-shot
Category Generalization [27.583517870047487]
本稿では、カテゴリやセマンティックなオブジェクト部分ラベルを使わずに、オブジェクトインスタンスの複数のビューからトレーニングできるDeep Object Patch rimis(DOPE)を提案する。
DOPEを訓練するために、物体の視界間の画素レベルの対応を得るために、スパースディープ、フォアグラウンドマスク、および既知のカメラへのアクセスを仮定する。
DOPEは, 局所的マッチングを用いて, 新規カテゴリーの低ショット分類に利用でき, 教師付き学習ベースラインや自己教師型学習ベースラインと競合し, 優れることがわかった。
論文 参考訳(メタデータ) (2022-11-28T04:31:53Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Incremental-DETR: Incremental Few-Shot Object Detection via
Self-Supervised Learning [60.64535309016623]
本稿では,DeTRオブジェクト検出器上での微調整および自己教師型学習によるインクリメンタル・デクリメンタル・デクリメンタル・デクリメンタル・オブジェクト検出を提案する。
まず,DeTRのクラス固有のコンポーネントを自己監督で微調整する。
さらに,DeTRのクラス固有のコンポーネントに知識蒸留を施した数発の微調整戦略を導入し,破滅的な忘れを伴わずに新しいクラスを検出するネットワークを奨励する。
論文 参考訳(メタデータ) (2022-05-09T05:08:08Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。