論文の概要: Localized Vision-Language Matching for Open-vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2205.06160v1
- Date: Thu, 12 May 2022 15:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 16:46:56.001765
- Title: Localized Vision-Language Matching for Open-vocabulary Object Detection
- Title(参考訳): 開語彙物体検出のための局所視覚言語マッチング
- Authors: Maria A. Bravo, Sudhanshu Mittal and Thomas Brox
- Abstract要約: 本稿では,新しいオブジェクトクラスと既知のクラスを同時に検出することを学ぶオープンワールドオブジェクト検出手法を提案する。
これは2段階の訓練手法であり、まず位置誘導画像キャプチャマッチング技術を用いてクラスラベルを学習する。
単純な言語モデルは、新しいオブジェクトを検出するための大きな文脈化言語モデルよりも適していることを示す。
- 参考スコア(独自算出の注目度): 41.98293277826196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose an open-world object detection method that, based on
image-caption pairs, learns to detect novel object classes along with a given
set of known classes. It is a two-stage training approach that first uses a
location-guided image-caption matching technique to learn class labels for both
novel and known classes in a weakly-supervised manner and second specializes
the model for the object detection task using known class annotations. We show
that a simple language model fits better than a large contextualized language
model for detecting novel objects. Moreover, we introduce a
consistency-regularization technique to better exploit image-caption pair
information. Our method compares favorably to existing open-world detection
approaches while being data-efficient.
- Abstract(参考訳): 本研究では,画像とキャプチャのペアに基づいて,既知のクラス群とともに新しいオブジェクトクラスを検出することを学ぶオープンワールドオブジェクト検出手法を提案する。
これは、まず位置誘導画像キャプチャマッチング技術を用いて、新しいクラスと既知のクラスの両方のクラスラベルを弱教師付きで学習し、次に、既知のクラスアノテーションを使用してオブジェクト検出タスクのモデルを専門化する2段階の訓練手法である。
単純な言語モデルは、新しいオブジェクトを検出するための大きな文脈化言語モデルよりも適していることを示す。
さらに,画像キャプチャ対情報を活用するための一貫性正規化手法を提案する。
提案手法は,既存のオープンワールド検出手法と比較して,データ効率が良い。
- 全文 参考訳へのリンク
関連論文リスト
- Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。
本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T07:03:30Z) - Towards Open-Set Object Detection and Discovery [38.81806249664884]
我々は新しいタスク、すなわちOpen-Set Object Detection and Discovery(OSODD)を提案する。
本稿では、まずオープンセットオブジェクト検出器を用いて、未知のオブジェクトと未知のオブジェクトの両方を予測する2段階の手法を提案する。
そこで,予測対象を教師なしで表現し,未知対象の集合から新たなカテゴリを発見する。
論文 参考訳(メタデータ) (2022-04-12T08:07:01Z) - Learning to Prompt for Open-Vocabulary Object Detection with
Vision-Language Model [34.85604521903056]
オープン語彙オブジェクト検出のための連続的なプロンプト表現を学習するための新しい手法である検出プロンプト(DetPro)を導入する。
私たちは最近の最先端のオープンワールドオブジェクト検出器であるViLDでDetProを組み立てます。
実験の結果、DetProはすべての設定でベースラインのViLDよりも優れています。
論文 参考訳(メタデータ) (2022-03-28T17:50:26Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Pix2seq: A Language Modeling Framework for Object Detection [12.788663431798588]
Pix2Seqはオブジェクト検出のためのシンプルで汎用的なフレームワークである。
我々はニューラルネットをトレーニングし、画像を認識し、所望のシーケンスを生成する。
私たちのアプローチは主に、ニューラルネットワークがオブジェクトの場所と場所を知っていれば、その読み方を教える必要がある、という直感に基づいています。
論文 参考訳(メタデータ) (2021-09-22T17:26:36Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。