論文の概要: Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding
- arxiv url: http://arxiv.org/abs/2206.03484v2
- Date: Wed, 29 Mar 2023 18:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 18:19:01.368131
- Title: Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding
- Title(参考訳): Detection Hub: 言語埋め込みにおけるクエリ適応によるオブジェクト検出データセットの統合
- Authors: Lingchen Meng, Xiyang Dai, Yinpeng Chen, Pengchuan Zhang, Dongdong
Chen, Mengchen Liu, Jianfeng Wang, Zuxuan Wu, Lu Yuan, Yu-Gang Jiang
- Abstract要約: 新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
- 参考スコア(独自算出の注目度): 137.3719377780593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combining multiple datasets enables performance boost on many computer vision
tasks. But similar trend has not been witnessed in object detection when
combining multiple datasets due to two inconsistencies among detection
datasets: taxonomy difference and domain gap. In this paper, we address these
challenges by a new design (named Detection Hub) that is dataset-aware and
category-aligned. It not only mitigates the dataset inconsistency but also
provides coherent guidance for the detector to learn across multiple datasets.
In particular, the dataset-aware design is achieved by learning a dataset
embedding that is used to adapt object queries as well as convolutional kernels
in detection heads. The categories across datasets are semantically aligned
into a unified space by replacing one-hot category representations with word
embedding and leveraging the semantic coherence of language embedding.
Detection Hub fulfills the benefits of large data on object detection.
Experiments demonstrate that joint training on multiple datasets achieves
significant performance gains over training on each dataset alone. Detection
Hub further achieves SoTA performance on UODB benchmark with wide variety of
datasets.
- Abstract(参考訳): 複数のデータセットを組み合わせることで、多くのコンピュータビジョンタスクのパフォーマンスが向上する。
しかし、検出データセット間には2つの矛盾があるため、複数のデータセットを組み合わせたオブジェクト検出では同様の傾向は見られていない。
本稿では,これらの課題を,データセット認識とカテゴリ整合を備えた新しい設計(検出ハブ)によって解決する。
データセットの不一貫性を緩和するだけでなく、複数のデータセットをまたいで学習するためのコヒーレントなガイダンスを提供する。
特に、データセット認識設計は、オブジェクトクエリや検出ヘッドの畳み込みカーネルに適応するために使用されるデータセットの埋め込みを学ぶことで達成される。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換え、言語埋め込みのセマンティックコヒーレンスを活用することで、意味的に統一された空間に整合する。
Detection Hubは、オブジェクト検出に関する大きなデータの利点を満たす。
実験では、複数のデータセットのジョイントトレーニングが、各データセットでのトレーニングよりも大きなパフォーマンス向上を実現している。
Detection Hubはさらに、さまざまなデータセットを持つUODBベンチマークでSoTAのパフォーマンスを達成している。
関連論文リスト
- Anno-incomplete Multi-dataset Detection [67.69438032767613]
我々は「不完全なマルチデータセット検出」という新しい問題を提案する。
複数の注釈付きデータセットで全ての対象カテゴリを正確に検出できるエンドツーエンドのマルチタスク学習アーキテクチャを開発した。
論文 参考訳(メタデータ) (2024-08-29T03:58:21Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Language-aware Multiple Datasets Detection Pretraining for DETRs [4.939595148195813]
本稿では,METR と呼ばれる DETR 型検出器の事前学習に複数のデータセットを利用するためのフレームワークを提案する。
事前訓練された言語モデルを導入することにより、オブジェクト検出の典型的なマルチクラス化をバイナリ分類に変換する。
マルチタスク・ジョイントトレーニングとプレトレイン・ファネチューン・パラダイムのいずれにおいても,METRは異常な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-07T10:34:04Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Parsing with Pretrained Language Models, Multiple Datasets, and Dataset
Embeddings [13.097523786733872]
変換器に基づく多言語依存にデータセットを埋め込む2つの手法を比較する。
ベースラインスコアが低い小さなデータセットやデータセットでは,パフォーマンスの向上が最も高いことを確認します。
すべてのデータセットの組み合わせによるトレーニングは、言語関連性に基づいてより小さなクラスタを設計するのと同様である。
論文 参考訳(メタデータ) (2021-12-07T10:47:07Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Self-supervised Robust Object Detectors from Partially Labelled Datasets [3.1669406516464007]
データセットをマージすることで、複数のオブジェクトをトレーニングする代わりに、1つの統合オブジェクト検出器をトレーニングすることができます。
本稿では,統合されたデータセットのラベルの欠落を克服するためのトレーニングフレームワークを提案する。
VOC2012 と VOC2007 を用いて,Yolo の誤り率 $approx!48%$ で,シミュレーションした統合データセット上で Yolo をトレーニングするためのフレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-05-23T15:18:20Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。