論文の概要: Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding
- arxiv url: http://arxiv.org/abs/2206.03484v1
- Date: Tue, 7 Jun 2022 17:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 14:53:40.820851
- Title: Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding
- Title(参考訳): Detection Hub: 言語埋め込みにおけるクエリ適応によるオブジェクト検出データセットの統合
- Authors: Lingchen Meng, Xiyang Dai, Yinpeng Chen, Pengchuan Zhang, Dongdong
Chen, Mengchen Liu, Jianfeng Wang, Zuxuan Wu, Lu Yuan, Yu-Gang Jiang
- Abstract要約: 大規模なデータを活用することで、多くのコンピュータビジョンタスクのパフォーマンスが向上する。
分類学の違いとボックスアノテーションの不整合の2つの主な障害を観察する。
この2つの課題は、データセットごとのカテゴリの言語埋め込みにオブジェクトクエリを適応させることで、効果的に対処できることを示します。
- 参考スコア(独自算出の注目度): 137.3719377780593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging large-scale data can introduce performance gains on many computer
vision tasks. Unfortunately, this does not happen in object detection when
training a single model under multiple datasets together. We observe two main
obstacles: taxonomy difference and bounding box annotation inconsistency, which
introduces domain gaps in different datasets that prevents us from joint
training. In this paper, we show that these two challenges can be effectively
addressed by simply adapting object queries on language embedding of categories
per dataset. We design a detection hub to dynamically adapt queries on category
embedding based on the different distributions of datasets. Unlike previous
methods attempted to learn a joint embedding for all datasets, our adaptation
method can utilize the language embedding as semantic centers for common
categories, while learning the semantic bias towards specific categories
belonging to different datasets to handle annotation differences and make up
the domain gaps. These novel improvements enable us to end-to-end train a
single detector on multiple datasets simultaneously to fully take their
advantages. Further experiments on joint training on multiple datasets
demonstrate the significant performance gains over separate individual
fine-tuned detectors.
- Abstract(参考訳): 大規模データを活用することで、多くのコンピュータビジョンタスクのパフォーマンス向上が可能になる。
残念ながら、これは複数のデータセットで単一のモデルをトレーニングする際にオブジェクト検出では発生しない。
分類学の違いとバウンディングボックスアノテーションの不整合という2つの主な障害を観察する。
本稿では,データセットごとのカテゴリの言語埋め込みにオブジェクトクエリを適応させることで,この2つの課題を効果的に解決できることを示す。
データセットの異なる分布に基づいてカテゴリ埋め込みに基づくクエリを動的に適応する検出ハブを設計する。
従来の手法がすべてのデータセットのジョイント埋め込みを学習しようとしたのと異なり、この適応手法は共通カテゴリのセマンティクスセンタとして言語埋め込みを活用でき、アノテーションの違いを処理し、ドメインギャップを構成するために、異なるデータセットに属する特定のカテゴリに対するセマンティクスバイアスを学習できる。
これらの新たな改善により、複数のデータセット上で1つの検出器を同時にエンドツーエンドでトレーニングし、その利点を完全に享受することができます。
複数のデータセットのジョイントトレーニングに関するさらなる実験は、個別の微調整検出器よりも大きな性能向上を示す。
関連論文リスト
- Anno-incomplete Multi-dataset Detection [67.69438032767613]
我々は「不完全なマルチデータセット検出」という新しい問題を提案する。
複数の注釈付きデータセットで全ての対象カテゴリを正確に検出できるエンドツーエンドのマルチタスク学習アーキテクチャを開発した。
論文 参考訳(メタデータ) (2024-08-29T03:58:21Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Language-aware Multiple Datasets Detection Pretraining for DETRs [4.939595148195813]
本稿では,METR と呼ばれる DETR 型検出器の事前学習に複数のデータセットを利用するためのフレームワークを提案する。
事前訓練された言語モデルを導入することにより、オブジェクト検出の典型的なマルチクラス化をバイナリ分類に変換する。
マルチタスク・ジョイントトレーニングとプレトレイン・ファネチューン・パラダイムのいずれにおいても,METRは異常な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-07T10:34:04Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Parsing with Pretrained Language Models, Multiple Datasets, and Dataset
Embeddings [13.097523786733872]
変換器に基づく多言語依存にデータセットを埋め込む2つの手法を比較する。
ベースラインスコアが低い小さなデータセットやデータセットでは,パフォーマンスの向上が最も高いことを確認します。
すべてのデータセットの組み合わせによるトレーニングは、言語関連性に基づいてより小さなクラスタを設計するのと同様である。
論文 参考訳(メタデータ) (2021-12-07T10:47:07Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Self-supervised Robust Object Detectors from Partially Labelled Datasets [3.1669406516464007]
データセットをマージすることで、複数のオブジェクトをトレーニングする代わりに、1つの統合オブジェクト検出器をトレーニングすることができます。
本稿では,統合されたデータセットのラベルの欠落を克服するためのトレーニングフレームワークを提案する。
VOC2012 と VOC2007 を用いて,Yolo の誤り率 $approx!48%$ で,シミュレーションした統合データセット上で Yolo をトレーニングするためのフレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-05-23T15:18:20Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。