論文の概要: Open-Vocabulary Object Detection Using Captions
- arxiv url: http://arxiv.org/abs/2011.10678v2
- Date: Sun, 14 Mar 2021 18:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:05:24.519135
- Title: Open-Vocabulary Object Detection Using Captions
- Title(参考訳): キャプションを用いた開語彙オブジェクト検出
- Authors: Alireza Zareian, Kevin Dela Rosa, Derek Hao Hu, Shih-Fu Chang
- Abstract要約: オープンボキャブラリオブジェクト検出は、弱教師付きおよびゼロショットアプローチよりも一般的で、実用的で、効果的である。
提案手法は,トレーニング中に境界ボックスアノテーションが提供されないオブジェクトを,ゼロショットアプローチよりもはるかに高い精度で検出し,ローカライズすることができることを示す。
- 参考スコア(独自算出の注目度): 42.76261152761722
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the remarkable accuracy of deep neural networks in object detection,
they are costly to train and scale due to supervision requirements.
Particularly, learning more object categories typically requires proportionally
more bounding box annotations. Weakly supervised and zero-shot learning
techniques have been explored to scale object detectors to more categories with
less supervision, but they have not been as successful and widely adopted as
supervised models. In this paper, we put forth a novel formulation of the
object detection problem, namely open-vocabulary object detection, which is
more general, more practical, and more effective than weakly supervised and
zero-shot approaches. We propose a new method to train object detectors using
bounding box annotations for a limited set of object categories, as well as
image-caption pairs that cover a larger variety of objects at a significantly
lower cost. We show that the proposed method can detect and localize objects
for which no bounding box annotation is provided during training, at a
significantly higher accuracy than zero-shot approaches. Meanwhile, objects
with bounding box annotation can be detected almost as accurately as supervised
methods, which is significantly better than weakly supervised baselines.
Accordingly, we establish a new state of the art for scalable object detection.
- Abstract(参考訳): オブジェクト検出におけるディープニューラルネットワークの精度は極めて高いが、監視要件のためにトレーニングやスケールにコストがかかる。
特に、より多くのオブジェクトカテゴリを学ぶには、一般的に比例的にボックスアノテーションが必要である。
弱い教師付きおよびゼロショット学習技術は、少ない監督でより多くのカテゴリに対象検出器をスケールするために研究されてきたが、教師付きモデルほど成功せず、広く採用されていない。
本稿では,対象検出問題の新たな定式化,すなわちオープンボキャブラリー物体検出法について述べる。
本稿では,限定された対象カテゴリに対するバウンディングボックスアノテーションと,より広い範囲のオブジェクトをカバーするイメージキャプチャペアを用いて,より低コストで物体検出を行う新しい手法を提案する。
提案手法は,学習中に境界ボックスアノテーションが提供されないオブジェクトを,ゼロショットアプローチよりもはるかに高い精度で検出・ローカライズできることを示す。
一方、境界ボックスアノテーションを持つオブジェクトは、教師付きメソッドと同じくらい正確に検出することができる。
そこで我々は,スケーラブルな物体検出のための新しい技術を確立した。
関連論文リスト
- Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - Unsupervised learning based object detection using Contrastive Learning [6.912349403119665]
本研究では,教師なし・自己教師型学習を通じて,単段階物体検出装置を訓練するための画期的な手法を提案する。
我々の最先端のアプローチはラベリングプロセスに革命をもたらす可能性を秘めており、手動アノテーションに関連する時間とコストを大幅に削減する。
我々は、画像間のコントラスト学習という概念を創始し、重要な位置情報の取得を可能にした。
論文 参考訳(メタデータ) (2024-02-21T01:44:15Z) - Detecting the unknown in Object Detection [20.84221126313118]
我々は、アノテーションを必要とせずに未知のオブジェクトを予測できるUNKADと呼ばれる新しいトレーニング戦略を提案する。
UNKADはまず未知のオブジェクトを識別し、擬似ラベルを使用して未知のクラスをトレーニングする。
UNKADは未知の物体を直接検出できるが、従来の未知の検出技術と組み合わせることで、コストなしで性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-08-24T16:27:38Z) - Scaling Novel Object Detection with Weakly Supervised Detection
Transformers [21.219817483091166]
Weakly Supervised Detection Transformerを提案する。これは大規模な事前学習データセットからWSODファインタニングへの効率的な知識伝達を可能にする。
提案手法は, 大規模オブジェクト検出データセットにおいて, 従来の最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-11T21:45:54Z) - Incremental-DETR: Incremental Few-Shot Object Detection via
Self-Supervised Learning [60.64535309016623]
本稿では,DeTRオブジェクト検出器上での微調整および自己教師型学習によるインクリメンタル・デクリメンタル・デクリメンタル・デクリメンタル・オブジェクト検出を提案する。
まず,DeTRのクラス固有のコンポーネントを自己監督で微調整する。
さらに,DeTRのクラス固有のコンポーネントに知識蒸留を施した数発の微調整戦略を導入し,破滅的な忘れを伴わずに新しいクラスを検出するネットワークを奨励する。
論文 参考訳(メタデータ) (2022-05-09T05:08:08Z) - Discovery-and-Selection: Towards Optimal Multiple Instance Learning for
Weakly Supervised Object Detection [86.86602297364826]
複数インスタンス学習(DS-MIL)と融合した発見・選択手法を提案する。
我々の提案するDS-MILアプローチは,最先端の性能を報告しながら,ベースラインを一貫して改善することができる。
論文 参考訳(メタデータ) (2021-10-18T07:06:57Z) - Class-agnostic Object Detection [16.97782147401037]
本稿では,オブジェクトのクラスに関係なくオブジェクトを検出することに焦点を当てた新しい問題として,クラスに依存しないオブジェクト検出を提案する。
具体的には、イメージ内のすべてのオブジェクトのバウンディングボックスを予測することであり、オブジェクトクラスではない。
本稿では,この領域における今後の研究を進めるために,クラス非依存検出器のベンチマークのためのトレーニングおよび評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-28T19:22:38Z) - Slender Object Detection: Diagnoses and Improvements [74.40792217534]
本稿では,超高アスペクト比,すなわちtextbfslender オブジェクトの特定タイプの検出について検討する。
古典的物体検出法では、細い物体に対してのみ評価される場合、COCO上の18.9%のmAPの劇的な低下が観察される。
論文 参考訳(メタデータ) (2020-11-17T09:39:42Z) - Exploring Bottom-up and Top-down Cues with Attentive Learning for Webly
Supervised Object Detection [76.9756607002489]
本稿では,新しいクラスを対象としたWebSOD法を提案する。
提案手法はボトムアップとトップダウンを組み合わせた新しいクラス検出手法である。
提案手法は,3種類の新規/ベース分割を持つPASCAL VOCデータセット上で実証した。
論文 参考訳(メタデータ) (2020-03-22T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。