論文の概要: Bamboo: Building Mega-Scale Vision Dataset Continually with
Human-Machine Synergy
- arxiv url: http://arxiv.org/abs/2203.07845v1
- Date: Tue, 15 Mar 2022 13:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 15:52:13.939667
- Title: Bamboo: Building Mega-Scale Vision Dataset Continually with
Human-Machine Synergy
- Title(参考訳): bamboo:人間と機械のシナジーで継続的に大規模ビジョンデータセットを構築する
- Authors: Yuanhan Zhang, Qinghong Sun, Yichun Zhou, Zexin He, Zhenfei Yin, Kun
Wang, Lu Sheng, Yu Qiao, Jing Shao, Ziwei Liu
- Abstract要約: 大規模データセットはコンピュータビジョンにおいて重要な役割を果たす。
既存のデータセットはラベルシステムに従って収集されるか、サンプルを区別せずに盲目的に収集される。
我々は,包括的ラベルシステム上で,積極的に注釈付きかつ継続的な高品質な視覚データセットの構築を提唱する。
- 参考スコア(独自算出の注目度): 69.07918114341298
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large-scale datasets play a vital role in computer vision. Existing datasets
are either collected according to heuristic label systems or annotated blindly
without differentiation to samples, making them inefficient and unscalable. How
to systematically collect, annotate and build a mega-scale dataset remains an
open question. In this work, we advocate building a high-quality vision dataset
actively and continually on a comprehensive label system. Specifically, we
contribute Bamboo Dataset, a mega-scale and information-dense dataset for both
classification and detection. Bamboo aims to populate the comprehensive
categories with 69M image classification annotations and 170,586 object
bounding box annotations. Compared to ImageNet22K and Objects365, models
pre-trained on Bamboo achieve superior performance among various downstream
tasks (6.2% gains on classification and 2.1% gains on detection). In addition,
we provide valuable observations regarding large-scale pre-training from over
1,000 experiments. Due to its scalable nature on both label system and
annotation pipeline, Bamboo will continue to grow and benefit from the
collective efforts of the community, which we hope would pave the way for more
general vision models.
- Abstract(参考訳): 大規模データセットはコンピュータビジョンにおいて重要な役割を果たす。
既存のデータセットはヒューリスティックなラベルシステムに従って収集されるか、サンプルを区別せずに盲目的に注釈付けされる。
大規模データセットを体系的に収集、注釈付け、構築する方法は、未解決の問題である。
本研究では,包括的ラベルシステム上で,高品質なビジョンデータセットを積極的にかつ継続的に構築することを提唱する。
具体的には,分類と検出のための大規模かつ情報拡散データセットであるbamboo datasetをコントリビュートする。
bambooは、包括的なカテゴリを69mのイメージ分類アノテーションと170,586のオブジェクトバウンディングボックスアノテーションで配置することを目指している。
ImageNet22KやObjects365と比較して、Bambooで事前訓練されたモデルは、さまざまな下流タスク(分類で6.2%、検出で2.1%)で優れたパフォーマンスを実現している。
さらに,1000以上の実験から得られた大規模事前学習に関する貴重な知見も提供する。
ラベルシステムとアノテーションパイプラインの両方にスケーラブルな性質があるため、Bambooは今後も成長を続け、コミュニティの集合的な取り組みから恩恵を受けていくでしょう。
関連論文リスト
- OAM-TCD: A globally diverse dataset of high-resolution tree cover maps [8.336960607169175]
OpenMap (OAM) から得られた高解像度の空中画像において, ツリークラウンデライン化(TCD)のための新しいオープンアクセスデータセットを提案する。
我々のデータセットであるOAM-TCDは、50722048x2048px画像を10cm/px解像度で、関連する280k個以上の木と56k個の木からなる。
データセットを使用して、既存の最先端モデルと比較する参照インスタンスとセマンティックセグメンテーションモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-07-16T14:11:29Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Leveraging Human-Machine Interactions for Computer Vision Dataset
Quality Enhancement [0.0]
emphImageNet-1kのようなシングルラベルのマルチクラス分類のための大規模データセットは、ディープラーニングやコンピュータビジョンの進歩に役立っている。
我々は、効率的なデータセット検証と品質向上のために、人間とマシンインテリジェンスをシナジする軽量でユーザフレンドリでスケーラブルなフレームワークを導入します。
ImageNetV2データセットでMultilabelfyを使用することで、画像の約47.88%が少なくとも2つのラベルを含んでいることがわかった。
論文 参考訳(メタデータ) (2024-01-31T10:57:07Z) - A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect
Dataset [18.211840156134784]
本稿では,画像に基づく分類学的評価が可能なコンピュータビジョンモデルの訓練を目的とした,100万画像データセットを提案する。
このデータセットは魅力的な特徴も示しており、その研究はより広範な機械学習コミュニティにとって興味深いものとなるだろう。
論文 参考訳(メタデータ) (2023-07-19T20:54:08Z) - Large Scale Real-World Multi-Person Tracking [68.27438015329807]
本稿では,新しい大規模多人数追跡データセットであるtexttPersonPath22を提案する。
MOT17、HiEve、MOT20などの高品質なマルチオブジェクト追跡データセットよりも桁違いに大きい。
論文 参考訳(メタデータ) (2022-11-03T23:03:13Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。