論文の概要: Exploiting Unlabeled Data with Vision and Language Models for Object
Detection
- arxiv url: http://arxiv.org/abs/2207.08954v1
- Date: Mon, 18 Jul 2022 21:47:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:52:25.330093
- Title: Exploiting Unlabeled Data with Vision and Language Models for Object
Detection
- Title(参考訳): 物体検出のための視覚・言語モデルを用いたラベルなしデータの活用
- Authors: Shiyu Zhao, Zhixing Zhang, Samuel Schulter, Long Zhao, Vijay Kumar
B.G, Anastasis Stathopoulos, Manmohan Chandraker, Dimitris Metaxas
- Abstract要約: 堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
- 参考スコア(独自算出の注目度): 64.94365501586118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building robust and generic object detection frameworks requires scaling to
larger label spaces and bigger training datasets. However, it is prohibitively
costly to acquire annotations for thousands of categories at a large scale. We
propose a novel method that leverages the rich semantics available in recent
vision and language models to localize and classify objects in unlabeled
images, effectively generating pseudo labels for object detection. Starting
with a generic and class-agnostic region proposal mechanism, we use vision and
language models to categorize each region of an image into any object category
that is required for downstream tasks. We demonstrate the value of the
generated pseudo labels in two specific tasks, open-vocabulary detection, where
a model needs to generalize to unseen object categories, and semi-supervised
object detection, where additional unlabeled images can be used to improve the
model. Our empirical evaluation shows the effectiveness of the pseudo labels in
both tasks, where we outperform competitive baselines and achieve a novel
state-of-the-art for open-vocabulary object detection. Our code is available at
https://github.com/xiaofeng94/VL-PLM.
- Abstract(参考訳): 堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要だ。
しかし、数千のカテゴリのアノテーションを大規模に取得することは、非常にコストがかかる。
近年の視覚や言語モデルで利用可能なリッチなセマンティクスを利用して、未ラベル画像中のオブジェクトをローカライズ・分類し、オブジェクト検出のための擬似ラベルを効果的に生成する手法を提案する。
汎用的でクラスに依存しない領域の提案メカニズムから始め、イメージの各領域を下流タスクに必要な任意のオブジェクトカテゴリに分類するためにビジョンと言語モデルを使用します。
生成した擬似ラベルの2つの特定のタスクにおける値を示す。open-vocabulary detection, モデルが未認識のオブジェクトカテゴリに一般化する必要がある場合, 半教師付きオブジェクト検出, 追加ラベルなしイメージを使用してモデルを改善する場合である。
評価の結果,両タスクにおける疑似ラベルの有効性が示され,競合ベースラインを上回って,オープンボキャブラリーオブジェクト検出のための新たな最先端を実現することができた。
私たちのコードはhttps://github.com/xiaofeng94/vl-plmで利用可能です。
関連論文リスト
- Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - Generative Region-Language Pretraining for Open-Ended Object Detection [55.42484781608621]
我々は,高密度物体を検出し,その名前を自由形式の方法で生成できるGenerateUというフレームワークを提案する。
本フレームワークはオープン語彙オブジェクト検出手法GLIPに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2024-03-15T10:52:39Z) - Labeling Indoor Scenes with Fusion of Out-of-the-Box Perception Models [4.157013247909771]
ボトムアップセグメンテーション(SAM)、オブジェクト検出(Detic)、セマンティックセグメンテーション(MaskFormer)の最先端モデルを活用することを提案する。
室内環境におけるセマンティックセグメンテーションとオブジェクトインスタンス検出のための擬似ラベルを得るための,コスト効率の高いラベリング手法を開発することを目的とする。
提案手法の有効性を,Active VisionデータセットとADE20Kデータセットに示す。
論文 参考訳(メタデータ) (2023-11-17T21:58:26Z) - Learning Dense Object Descriptors from Multiple Views for Low-shot
Category Generalization [27.583517870047487]
本稿では、カテゴリやセマンティックなオブジェクト部分ラベルを使わずに、オブジェクトインスタンスの複数のビューからトレーニングできるDeep Object Patch rimis(DOPE)を提案する。
DOPEを訓練するために、物体の視界間の画素レベルの対応を得るために、スパースディープ、フォアグラウンドマスク、および既知のカメラへのアクセスを仮定する。
DOPEは, 局所的マッチングを用いて, 新規カテゴリーの低ショット分類に利用でき, 教師付き学習ベースラインや自己教師型学習ベースラインと競合し, 優れることがわかった。
論文 参考訳(メタデータ) (2022-11-28T04:31:53Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Localized Vision-Language Matching for Open-vocabulary Object Detection [41.98293277826196]
本稿では,新しいオブジェクトクラスと既知のクラスを同時に検出することを学ぶオープンワールドオブジェクト検出手法を提案する。
これは2段階の訓練手法であり、まず位置誘導画像キャプチャマッチング技術を用いてクラスラベルを学習する。
単純な言語モデルは、新しいオブジェクトを検出するための大きな文脈化言語モデルよりも適していることを示す。
論文 参考訳(メタデータ) (2022-05-12T15:34:37Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Cross-Supervised Object Detection [42.783400918552765]
完全ラベル付きベースカテゴリから学習した知識を活用して、新しいカテゴリの弱いラベル付き画像からより良いオブジェクト検出器を構築する方法を示す。
本稿では,インスタンスレベルのアノテーションから学習した検出ヘッドと,画像レベルのアノテーションから学習した認識ヘッドを組み合わせた統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-26T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。