論文の概要: ScaleDet: A Scalable Multi-Dataset Object Detector
- arxiv url: http://arxiv.org/abs/2306.04849v1
- Date: Thu, 8 Jun 2023 00:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 16:51:48.681522
- Title: ScaleDet: A Scalable Multi-Dataset Object Detector
- Title(参考訳): ScaleDet: スケーラブルなマルチデータセットオブジェクト検出器
- Authors: Yanbei Chen, Manchen Wang, Abhay Mittal, Zhenlin Xu, Paolo Favaro,
Joseph Tighe, Davide Modolo
- Abstract要約: 本稿では、データセット間の一般化をスケールアップできるスケーラブルなマルチデータセット検出器(ScaleDet)を提案する。
LVISは50.7、COCOは58.8、Objects365は46.8、OpenImagesは76.2、ODinWは71.8である。
- 参考スコア(独自算出の注目度): 40.08148347029028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-dataset training provides a viable solution for exploiting
heterogeneous large-scale datasets without extra annotation cost. In this work,
we propose a scalable multi-dataset detector (ScaleDet) that can scale up its
generalization across datasets when increasing the number of training datasets.
Unlike existing multi-dataset learners that mostly rely on manual relabelling
efforts or sophisticated optimizations to unify labels across datasets, we
introduce a simple yet scalable formulation to derive a unified semantic label
space for multi-dataset training. ScaleDet is trained by visual-textual
alignment to learn the label assignment with label semantic similarities across
datasets. Once trained, ScaleDet can generalize well on any given upstream and
downstream datasets with seen and unseen classes. We conduct extensive
experiments using LVIS, COCO, Objects365, OpenImages as upstream datasets, and
13 datasets from Object Detection in the Wild (ODinW) as downstream datasets.
Our results show that ScaleDet achieves compelling strong model performance
with an mAP of 50.7 on LVIS, 58.8 on COCO, 46.8 on Objects365, 76.2 on
OpenImages, and 71.8 on ODinW, surpassing state-of-the-art detectors with the
same backbone.
- Abstract(参考訳): マルチデータセットトレーニングは、追加のアノテーションコストなしで異質な大規模データセットを利用するための実行可能なソリューションを提供する。
本研究では,トレーニングデータセット数を増加させる際に,データセット全体の一般化をスケールアップできるスケーラブルなマルチデータセット検出器(scaledet)を提案する。
データセット間でラベルを統一するための手作業や高度な最適化に大きく依存する既存のマルチデータセット学習者とは異なり、マルチデータセットトレーニングのための統一セマンティックラベル空間を導出するためのシンプルでスケーラブルな定式化を導入する。
ScaleDetはビジュアルテキストアライメントによってトレーニングされ、データセット間のラベルセマンティックな類似性によってラベルの割り当てを学ぶ。
トレーニングが完了すると、ScaleDetは、任意の上流および下流のデータセットに対して、見知らぬクラスでうまく一般化することができる。
lvis、coco、object365、openimagesをアップストリームデータセットとして、オブジェクト検出(odinw)から13のデータセットをダウンストリームデータセットとして幅広い実験を行います。
以上の結果から,LVISでは50.7,COCOでは58.8,Objects365では46.8,OpenImageでは76.2,ODinWでは71.8,バックボーンでは最先端検出器では71.8で,強力なモデル性能を達成できた。
関連論文リスト
- Plain-Det: A Plain Multi-Dataset Object Detector [22.848784430833835]
Plain-Detは、新しいデータセットに対応する柔軟性、さまざまなデータセットのパフォーマンス、トレーニング効率を提供する。
13の下流データセットに対して広範な実験を行い、Plain-Detは強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-07-14T05:18:06Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model [42.49953563682122]
本稿では,汎用マルチタスクセグメンテーションモデルDaTaSegを提案する。
すべてのタスクに共有表現(クラス予測を伴うマスク提案)を使用します。
また、弱いスーパービジョンを活用し、セグメンテーションモデルはより安価なバウンディングボックスアノテーションの恩恵を受けることができます。
論文 参考訳(メタデータ) (2023-06-02T17:59:24Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Label Name is Mantra: Unifying Point Cloud Segmentation across
Heterogeneous Datasets [17.503843467554592]
本稿では,異なるラベル集合を持つ異種データセットからの学習を支援する原理的アプローチを提案する。
我々の考えは、学習済みの言語モデルを用いて、ラベル名を用いて離散ラベルを連続的な潜在空間に埋め込むことである。
私たちのモデルは最先端の技術を大きなマージンで上回ります。
論文 参考訳(メタデータ) (2023-03-19T06:14:22Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - COLA: COarse LAbel pre-training for 3D semantic segmentation of sparse
LiDAR datasets [3.8243923744440926]
転送学習は、2次元コンピュータビジョンにおいて、利用可能な大量のデータを活用し、高い性能を達成するための実証された技術である。
本研究では,スパース自動運転LiDARスキャンのリアルタイムな3次元セマンティックセマンティックセマンティックセグメンテーションを実現する。
我々は,COLA(Coarse label pre-training)と呼ばれる新しい事前訓練タスクを導入する。
論文 参考訳(メタデータ) (2022-02-14T17:19:23Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。