論文の概要: Localized Vision-Language Matching for Open-vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2205.06160v1
- Date: Thu, 12 May 2022 15:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 16:46:56.001765
- Title: Localized Vision-Language Matching for Open-vocabulary Object Detection
- Title(参考訳): 開語彙物体検出のための局所視覚言語マッチング
- Authors: Maria A. Bravo, Sudhanshu Mittal and Thomas Brox
- Abstract要約: 本稿では,新しいオブジェクトクラスと既知のクラスを同時に検出することを学ぶオープンワールドオブジェクト検出手法を提案する。
これは2段階の訓練手法であり、まず位置誘導画像キャプチャマッチング技術を用いてクラスラベルを学習する。
単純な言語モデルは、新しいオブジェクトを検出するための大きな文脈化言語モデルよりも適していることを示す。
- 参考スコア(独自算出の注目度): 41.98293277826196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose an open-world object detection method that, based on
image-caption pairs, learns to detect novel object classes along with a given
set of known classes. It is a two-stage training approach that first uses a
location-guided image-caption matching technique to learn class labels for both
novel and known classes in a weakly-supervised manner and second specializes
the model for the object detection task using known class annotations. We show
that a simple language model fits better than a large contextualized language
model for detecting novel objects. Moreover, we introduce a
consistency-regularization technique to better exploit image-caption pair
information. Our method compares favorably to existing open-world detection
approaches while being data-efficient.
- Abstract(参考訳): 本研究では,画像とキャプチャのペアに基づいて,既知のクラス群とともに新しいオブジェクトクラスを検出することを学ぶオープンワールドオブジェクト検出手法を提案する。
これは、まず位置誘導画像キャプチャマッチング技術を用いて、新しいクラスと既知のクラスの両方のクラスラベルを弱教師付きで学習し、次に、既知のクラスアノテーションを使用してオブジェクト検出タスクのモデルを専門化する2段階の訓練手法である。
単純な言語モデルは、新しいオブジェクトを検出するための大きな文脈化言語モデルよりも適していることを示す。
さらに,画像キャプチャ対情報を活用するための一貫性正規化手法を提案する。
提案手法は,既存のオープンワールド検出手法と比較して,データ効率が良い。
関連論文リスト
- DesCo: Learning Object Recognition with Rich Language Descriptions [93.8177229428617]
視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。
本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-24T21:05:02Z) - Open-Vocabulary Object Detection using Pseudo Caption Labels [3.260777306556596]
よりきめ細かいラベルは、新しいオブジェクトに関するより豊かな知識を引き出すために必要である、と我々は主張する。
分離されたVisualGenomeデータセットでトレーニングされた最良のモデルは、APが34.5、APrが30.6で、最先端のパフォーマンスに匹敵する。
論文 参考訳(メタデータ) (2023-03-23T05:10:22Z) - Open World DETR: Transformer based Open World Object Detection [60.64535309016623]
そこで我々は,Deformable DETRに基づくオープンワールドオブジェクト検出のための2段階学習手法Open World DETRを提案する。
モデルのクラス固有のコンポーネントを多視点の自己ラベル戦略と一貫性制約で微調整する。
提案手法は、他の最先端のオープンワールドオブジェクト検出方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-12-06T13:39:30Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Cross-Supervised Object Detection [42.783400918552765]
完全ラベル付きベースカテゴリから学習した知識を活用して、新しいカテゴリの弱いラベル付き画像からより良いオブジェクト検出器を構築する方法を示す。
本稿では,インスタンスレベルのアノテーションから学習した検出ヘッドと,画像レベルのアノテーションから学習した認識ヘッドを組み合わせた統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-26T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。