論文の概要: On The State of Data In Computer Vision: Human Annotations Remain
Indispensable for Developing Deep Learning Models
- arxiv url: http://arxiv.org/abs/2108.00114v1
- Date: Sat, 31 Jul 2021 00:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 05:39:01.287394
- Title: On The State of Data In Computer Vision: Human Annotations Remain
Indispensable for Developing Deep Learning Models
- Title(参考訳): コンピュータビジョンにおけるデータの現状--人間のアノテーションはディープラーニングモデル開発に不可欠である
- Authors: Zeyad Emam, Andrew Kondrich, Sasha Harrison, Felix Lau, Yushi Wang,
Aerin Kim, Elliot Branson
- Abstract要約: 高品質ラベル付きデータセットは機械学習(ML)の発展に重要な役割を果たす
2012年にImageNetデータセットとAlexNetモデルが登場して以来、新しいオープンソースのラベル付きビジョンデータセットのサイズはほぼ一定である。
コンピュータビジョンコミュニティの少数の出版物は、Imagenetよりも桁違いの大きさのデータセットの教師付き学習に取り組む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality labeled datasets play a crucial role in fueling the development
of machine learning (ML), and in particular the development of deep learning
(DL). However, since the emergence of the ImageNet dataset and the AlexNet
model in 2012, the size of new open-source labeled vision datasets has remained
roughly constant. Consequently, only a minority of publications in the computer
vision community tackle supervised learning on datasets that are orders of
magnitude larger than Imagenet. In this paper, we survey computer vision
research domains that study the effects of such large datasets on model
performance across different vision tasks. We summarize the community's current
understanding of those effects, and highlight some open questions related to
training with massive datasets. In particular, we tackle: (a) The largest
datasets currently used in computer vision research and the interesting
takeaways from training on such datasets; (b) The effectiveness of pre-training
on large datasets; (c) Recent advancements and hurdles facing synthetic
datasets; (d) An overview of double descent and sample non-monotonicity
phenomena; and finally, (e) A brief discussion of lifelong/continual learning
and how it fares compared to learning from huge labeled datasets in an offline
setting. Overall, our findings are that research on optimization for deep
learning focuses on perfecting the training routine and thus making DL models
less data hungry, while research on synthetic datasets aims to offset the cost
of data labeling. However, for the time being, acquiring non-synthetic labeled
data remains indispensable to boost performance.
- Abstract(参考訳): 高品質なラベル付きデータセットは、機械学習(ml)の開発、特にディープラーニング(dl)の開発を促進する上で重要な役割を果たす。
しかし、2012年にImageNetデータセットとAlexNetモデルが出現して以来、新しいオープンソースのラベル付きビジョンデータセットのサイズはほぼ一定である。
そのため、コンピュータビジョンコミュニティの出版物のうち、imagenetよりも桁違いに大きいデータセットの教師付き学習に取り組むものはごく少数である。
本稿では,このような大規模データセットが異なるビジョンタスクにおけるモデル性能に与える影響を研究するコンピュータビジョン研究領域を調査した。
これらの効果に関するコミュニティの現在の理解を要約し、大規模なデータセットによるトレーニングに関するオープンな疑問を強調します。
In particular, we tackle: (a) The largest datasets currently used in computer vision research and the interesting takeaways from training on such datasets; (b) The effectiveness of pre-training on large datasets; (c) Recent advancements and hurdles facing synthetic datasets; (d) An overview of double descent and sample non-monotonicity phenomena; and finally, (e) A brief discussion of lifelong/continual learning and how it fares compared to learning from huge labeled datasets in an offline setting.
全体として、ディープラーニングのための最適化の研究は、トレーニングルーチンを完璧にし、DLモデルをデータ空腹を減らすことに焦点を当て、合成データセットの研究は、データラベリングのコストを相殺することを目的としている。
しかし、今のところ、非合成ラベル付きデータの取得はパフォーマンス向上に不可欠である。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - SynDrone -- Multi-modal UAV Dataset for Urban Scenarios [11.338399194998933]
ピクセルレベルのアノテーションを持つ大規模な実際のデータセットの不足は、研究者にとって大きな課題となっている。
本研究では,複数の飛行高度で撮影された画像と3次元データを含むマルチモーダル合成データセットを提案する。
データセットは、UAVアプリケーションをターゲットにした新しいコンピュータビジョンメソッドの開発をサポートするために公開されます。
論文 参考訳(メタデータ) (2023-08-21T06:22:10Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - WorldGen: A Large Scale Generative Simulator [12.886022807173337]
我々は、無数の構造化された非構造化の3Dフォトリアリスティックシーンを自律的に生成する、オープンソースのフレームワークWorldGenを紹介する。
WorldGenは、ユーザに対して、テクスチャ、オブジェクト構造、モーション、カメラ、レンズプロパティなどの機能への完全なアクセスとコントロールを提供して、より汎用性を高めている。
論文 参考訳(メタデータ) (2022-10-03T05:07:42Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - A Proposal to Study "Is High Quality Data All We Need?" [8.122270502556374]
本稿では,高品質なベンチマークデータのサブセットの選択方法,および/または生成方法を検討するための実証的研究を提案する。
私たちは、タスクを学ぶために大きなデータセットが本当に必要かどうか、そして、高品質なデータの小さなサブセットが大きなデータセットを置き換えることができるかどうかに答えようとしています。
論文 参考訳(メタデータ) (2022-03-12T10:50:13Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - Deflating Dataset Bias Using Synthetic Data Augmentation [8.509201763744246]
自律走行車(AV)の視覚タスクの最先端の手法は、教師あり学習に依存している。
本研究の目的は,視覚タスクにおける実際のデータセットのギャップを埋めるために,ターゲットとなる合成データ拡張の利用を検討することである。
AVに実用的な3つの異なるコンピュータビジョンタスクに関する実証研究は、トレーニングミックスに合成データを持つことは、クロスデータセットの一般化性能を著しく向上させることを一貫して示している。
論文 参考訳(メタデータ) (2020-04-28T21:56:10Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。