論文の概要: DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection
- arxiv url: http://arxiv.org/abs/2209.09407v1
- Date: Tue, 20 Sep 2022 02:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:26:09.223192
- Title: DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection
- Title(参考訳): detclip:オープンワールド検出のための辞書エンリッチビジュアルコンセプタ並列事前学習
- Authors: Lewei Yao, Jianhua Han, Youpeng Wen, Xiaodan Liang, Dan Xu, Wei Zhang,
Zhenguo Li, Chunjing Xu, Hang Xu
- Abstract要約: 本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
- 参考スコア(独自算出の注目度): 118.36746273425354
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-world object detection, as a more general and challenging goal, aims to
recognize and localize objects described by arbitrary category names. The
recent work GLIP formulates this problem as a grounding problem by
concatenating all category names of detection datasets into sentences, which
leads to inefficient interaction between category names. This paper presents
DetCLIP, a paralleled visual-concept pre-training method for open-world
detection by resorting to knowledge enrichment from a designed concept
dictionary. To achieve better learning efficiency, we propose a novel
paralleled concept formulation that extracts concepts separately to better
utilize heterogeneous datasets (i.e., detection, grounding, and image-text
pairs) for training. We further design a concept dictionary~(with descriptions)
from various online sources and detection datasets to provide prior knowledge
for each concept. By enriching the concepts with their descriptions, we
explicitly build the relationships among various concepts to facilitate the
open-domain learning. The proposed concept dictionary is further used to
provide sufficient negative concepts for the construction of the word-region
alignment loss\, and to complete labels for objects with missing descriptions
in captions of image-text pair data. The proposed framework demonstrates strong
zero-shot detection performances, e.g., on the LVIS dataset, our DetCLIP-T
outperforms GLIP-T by 9.9% mAP and obtains a 13.5% improvement on rare
categories compared to the fully-supervised model with the same backbone as
ours.
- Abstract(参考訳): オープンワールドオブジェクト検出は、より一般的で挑戦的な目標として、任意のカテゴリ名で記述されたオブジェクトを認識し、ローカライズすることを目的としている。
最近の研究であるglipは、検出データセットのすべてのカテゴリ名を文に結合することで、この問題を接地問題として定式化している。
本稿では,設計した概念辞書から知識の豊かさに頼り,オープンワールド検出のための並列視覚概念事前学習手法であるdetclipを提案する。
学習効率を向上させるために,異種データセット(検出,接地,画像テキストペア)を訓練に利用するために,概念を別々に抽出する並列型概念定式化を提案する。
我々はさらに,各概念の事前知識を提供するために,様々なオンラインソースと検出データセットから概念辞書を(説明付きで)設計する。
概念を記述で豊かにすることで、オープンドメイン学習を促進するために、さまざまな概念間の関係を明示的に構築します。
提案する概念辞書は,単語領域のアライメント損失の構成に十分な負の概念を提供するとともに,画像とテキストのペアデータのキャプションに記述のないオブジェクトのラベルを完備する。
提案フレームワークは,例えばLVISデータセット上で,当社のDetCLIP-TがGLIP-Tを9.9%向上させ,当社と同じバックボーンを持つ完全教師付きモデルと比較して,稀なカテゴリを13.5%改善するなど,強力なゼロショット検出性能を示す。
関連論文リスト
- Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。
本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。
我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文 参考訳(メタデータ) (2024-07-19T17:50:11Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Hyperbolic Learning with Synthetic Captions for Open-World Detection [26.77840603264043]
本稿では,視覚言語モデル(VLM)から知識を伝達して,オープン語彙記述を自動的に強化することを提案する。
具体的には、予め訓練したVLMを用いて高濃度の合成キャプションをブートストラップし、画像の異なる領域について豊富な記述を提供する。
また,視覚とキャプションの埋め込みの階層構造を付加する,新しい双曲型視覚言語学習手法を提案する。
論文 参考訳(メタデータ) (2024-04-07T17:06:22Z) - HOLMES: HOLonym-MEronym based Semantic inspection for Convolutional
Image Classifiers [1.6252896527001481]
本稿では,ラベルを関連概念の集合に分解する手法を提案する。
HOLMESはイメージ分類のためのコンポーネントレベルの説明を提供する。
論文 参考訳(メタデータ) (2024-03-13T13:51:02Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-06-28T02:33:06Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z) - OvarNet: Towards Open-vocabulary Object Attribute Recognition [42.90477523238336]
CLIP-Attrと呼ばれるオープンボキャブラリオブジェクトの検出と属性分類に有効な2段階のアプローチを提案する。
候補オブジェクトは最初、オフラインのRPNで提案され、後にセマンティックなカテゴリと属性に分類される。
視覚的シーン理解において,意味カテゴリーと属性の認識が相補的であることを示す。
論文 参考訳(メタデータ) (2023-01-23T15:59:29Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。