論文の概要: Language-aware Multiple Datasets Detection Pretraining for DETRs
- arxiv url: http://arxiv.org/abs/2304.03580v1
- Date: Fri, 7 Apr 2023 10:34:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 12:15:32.570366
- Title: Language-aware Multiple Datasets Detection Pretraining for DETRs
- Title(参考訳): DETRのための言語対応多重データセット検出
- Authors: Jing Hao, Song Chen, Xiaodi Wang, Shumin Han
- Abstract要約: 本稿では,METR と呼ばれる DETR 型検出器の事前学習に複数のデータセットを利用するためのフレームワークを提案する。
事前訓練された言語モデルを導入することにより、オブジェクト検出の典型的なマルチクラス化をバイナリ分類に変換する。
マルチタスク・ジョイントトレーニングとプレトレイン・ファネチューン・パラダイムのいずれにおいても,METRは異常な結果が得られることを示す。
- 参考スコア(独自算出の注目度): 4.939595148195813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretraining on large-scale datasets can boost the performance of object
detectors while the annotated datasets for object detection are hard to scale
up due to the high labor cost. What we possess are numerous isolated
filed-specific datasets, thus, it is appealing to jointly pretrain models
across aggregation of datasets to enhance data volume and diversity. In this
paper, we propose a strong framework for utilizing Multiple datasets to
pretrain DETR-like detectors, termed METR, without the need for manual label
spaces integration. It converts the typical multi-classification in object
detection into binary classification by introducing a pre-trained language
model. Specifically, we design a category extraction module for extracting
potential categories involved in an image and assign these categories into
different queries by language embeddings. Each query is only responsible for
predicting a class-specific object. Besides, to adapt our novel detection
paradigm, we propose a group bipartite matching strategy that limits the ground
truths to match queries assigned to the same category. Extensive experiments
demonstrate that METR achieves extraordinary results on either multi-task joint
training or the pretrain & finetune paradigm. Notably, our pre-trained models
have high flexible transferability and increase the performance upon various
DETR-like detectors on COCO val2017 benchmark. Codes will be available after
this paper is published.
- Abstract(参考訳): 大規模なデータセットを事前トレーニングすることで、オブジェクト検出の性能が向上する一方で、オブジェクト検出のための注釈付きデータセットは、高い労力コストのためスケールアップが難しい。
当社が所有するデータセットは,独立した多くのデータセットであり,データボリュームと多様性を高めるために,データセットの集約全体にわたってモデルを事前トレーニングすることが望ましいのです。
本稿では,手動ラベル空間の統合を必要とせず,複数のデータセットを用いてMETRと呼ばれるDETRライクな検出器を事前学習するための強力なフレームワークを提案する。
事前訓練された言語モデルを導入することにより、オブジェクト検出の典型的なマルチクラス化をバイナリ分類に変換する。
具体的には、画像に含まれる潜在的なカテゴリを抽出し、これらのカテゴリを言語埋め込みによって異なるクエリに割り当てるカテゴリ抽出モジュールを設計する。
各クエリは、クラス固有のオブジェクトを予測する責任のみを負う。
また,新たな検出パラダイムに適応するため,同じカテゴリに割り当てられた問合せに基礎的真理を限定するグループ二部マッチング戦略を提案する。
広範囲な実験により、METRはマルチタスクのジョイントトレーニングまたはプレトレイン・ファインチューン・パラダイムにおいて異常な結果をもたらすことが示されている。
特に、トレーニング済みのモデルは高い柔軟性を持ち、coco val2017ベンチマークで様々なdetrライクな検出器の性能を高めています。
この論文が公開された後、コードは利用可能になる。
関連論文リスト
- Meta-learning Pathologies from Radiology Reports using Variance Aware
Prototypical Networks [3.464871689508835]
本稿では,数ショットのテキスト分類のためのプロトタイプネットワークの簡易拡張を提案する。
我々の主な考えは、クラスプロトタイプをガウスに置き換え、サンプルを適切なクラスセントロイドの近くでクラスタ化することを奨励する正規化項を導入することである。
論文 参考訳(メタデータ) (2022-10-22T05:22:29Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。