論文の概要: DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection
- arxiv url: http://arxiv.org/abs/2209.09407v1
- Date: Tue, 20 Sep 2022 02:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:26:09.223192
- Title: DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection
- Title(参考訳): detclip:オープンワールド検出のための辞書エンリッチビジュアルコンセプタ並列事前学習
- Authors: Lewei Yao, Jianhua Han, Youpeng Wen, Xiaodan Liang, Dan Xu, Wei Zhang,
Zhenguo Li, Chunjing Xu, Hang Xu
- Abstract要約: 本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
- 参考スコア(独自算出の注目度): 118.36746273425354
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-world object detection, as a more general and challenging goal, aims to
recognize and localize objects described by arbitrary category names. The
recent work GLIP formulates this problem as a grounding problem by
concatenating all category names of detection datasets into sentences, which
leads to inefficient interaction between category names. This paper presents
DetCLIP, a paralleled visual-concept pre-training method for open-world
detection by resorting to knowledge enrichment from a designed concept
dictionary. To achieve better learning efficiency, we propose a novel
paralleled concept formulation that extracts concepts separately to better
utilize heterogeneous datasets (i.e., detection, grounding, and image-text
pairs) for training. We further design a concept dictionary~(with descriptions)
from various online sources and detection datasets to provide prior knowledge
for each concept. By enriching the concepts with their descriptions, we
explicitly build the relationships among various concepts to facilitate the
open-domain learning. The proposed concept dictionary is further used to
provide sufficient negative concepts for the construction of the word-region
alignment loss\, and to complete labels for objects with missing descriptions
in captions of image-text pair data. The proposed framework demonstrates strong
zero-shot detection performances, e.g., on the LVIS dataset, our DetCLIP-T
outperforms GLIP-T by 9.9% mAP and obtains a 13.5% improvement on rare
categories compared to the fully-supervised model with the same backbone as
ours.
- Abstract(参考訳): オープンワールドオブジェクト検出は、より一般的で挑戦的な目標として、任意のカテゴリ名で記述されたオブジェクトを認識し、ローカライズすることを目的としている。
最近の研究であるglipは、検出データセットのすべてのカテゴリ名を文に結合することで、この問題を接地問題として定式化している。
本稿では,設計した概念辞書から知識の豊かさに頼り,オープンワールド検出のための並列視覚概念事前学習手法であるdetclipを提案する。
学習効率を向上させるために,異種データセット(検出,接地,画像テキストペア)を訓練に利用するために,概念を別々に抽出する並列型概念定式化を提案する。
我々はさらに,各概念の事前知識を提供するために,様々なオンラインソースと検出データセットから概念辞書を(説明付きで)設計する。
概念を記述で豊かにすることで、オープンドメイン学習を促進するために、さまざまな概念間の関係を明示的に構築します。
提案する概念辞書は,単語領域のアライメント損失の構成に十分な負の概念を提供するとともに,画像とテキストのペアデータのキャプションに記述のないオブジェクトのラベルを完備する。
提案フレームワークは,例えばLVISデータセット上で,当社のDetCLIP-TがGLIP-Tを9.9%向上させ,当社と同じバックボーンを持つ完全教師付きモデルと比較して,稀なカテゴリを13.5%改善するなど,強力なゼロショット検出性能を示す。
関連論文リスト
- HOLMES: HOLonym-MEronym based Semantic inspection for Convolutional
Image Classifiers [1.6252896527001481]
本稿では,ラベルを関連概念の集合に分解する手法を提案する。
HOLMESはイメージ分類のためのコンポーネントレベルの説明を提供する。
論文 参考訳(メタデータ) (2024-03-13T13:51:02Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Learning Pseudo-Labeler beyond Noun Concepts for Open-Vocabulary Object
Detection [25.719940401040205]
任意の概念の領域テキストアライメントをシンプルかつ効果的に学習する手法を提案する。
具体的には、任意の概念の擬似ラベル付けのための任意の画像とテキストのマッピング、Pseudo-Labeling for Arbitrary Concepts (PLAC) を学習することを目的としている。
提案手法は、名詞概念の標準OVODベンチマークにおける競合性能と、任意の概念の表現理解ベンチマークに対する大幅な改善を示す。
論文 参考訳(メタデータ) (2023-12-04T18:29:03Z) - Open-Vocabulary Camouflaged Object Segmentation [71.82644727907146]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入し,大規模複合シーンデータセット(textbfOVCamo)を構築した。
パラメータ固定CLIPに付加された強力な単一段開語彙下線下線下線下線下線下線下線下線下線を構築。
クラス意味知識の指導とエッジと奥行きからの視覚構造的手がかりの補足を統合する
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - CoDet: Co-Occurrence Guided Region-Word Alignment for Open-Vocabulary
Object Detection [78.0010542552784]
CoDetはオープン語彙オブジェクト検出のためのオブジェクトレベルの視覚言語表現を学習するための新しいアプローチである。
共有概念に言及するイメージをキャプションにグループ化することにより、共有概念に対応するオブジェクトは、高い共起性を示す。
CoDetは、オープン語彙検出において優れたパフォーマンスと魅力的なスケーラビリティを持っている。
論文 参考訳(メタデータ) (2023-10-25T14:31:02Z) - Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-06-28T02:33:06Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。