論文の概要: The Lean Data Scientist: Recent Advances towards Overcoming the Data
Bottleneck
- arxiv url: http://arxiv.org/abs/2211.07959v1
- Date: Tue, 15 Nov 2022 07:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 13:32:53.424948
- Title: The Lean Data Scientist: Recent Advances towards Overcoming the Data
Bottleneck
- Title(参考訳): リーンデータサイエンティスト: データボトルネック克服に向けた最近の進歩
- Authors: Chen Shani, Jonathan Zarecki, Dafna Shahaf
- Abstract要約: 機械学習(ML)は、ほとんどすべての科学と産業に影響を及ぼし、世界を変えつつある。
最近のアルゴリズムはますますデータに飢えており、トレーニングには大規模なデータセットが必要である。
しかし、そのような規模の高品質なデータセットを取得することは難しい課題である。
- 参考スコア(独自算出の注目度): 16.18460753647167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) is revolutionizing the world, affecting almost every
field of science and industry. Recent algorithms (in particular, deep networks)
are increasingly data-hungry, requiring large datasets for training. Thus, the
dominant paradigm in ML today involves constructing large, task-specific
datasets.
However, obtaining quality datasets of such magnitude proves to be a
difficult challenge. A variety of methods have been proposed to address this
data bottleneck problem, but they are scattered across different areas, and it
is hard for a practitioner to keep up with the latest developments. In this
work, we propose a taxonomy of these methods. Our goal is twofold: (1) We wish
to raise the community's awareness of the methods that already exist and
encourage more efficient use of resources, and (2) we hope that such a taxonomy
will contribute to our understanding of the problem, inspiring novel ideas and
strategies to replace current annotation-heavy approaches.
- Abstract(参考訳): 機械学習(ML)は、ほとんどすべての科学と産業に影響を及ぼし、世界を変えつつある。
最近のアルゴリズム(特にディープ・ネットワーク)は、トレーニングのために大規模なデータセットを必要とするようになってきている。
したがって、今日のMLにおける支配的なパラダイムは、大きなタスク固有のデータセットを構築することである。
しかし、このような規模の品質データセットを得ることは難しい課題である。
このデータボトルネック問題に対処する様々な手法が提案されているが、それらは様々な領域に分散しており、実践者が最新の開発に追随するのは困難である。
本稿では,これらの手法の分類法を提案する。
目的は,(1)すでに存在する手法に対するコミュニティの意識を高め,資源のより効率的な利用を促進すること,(2)このような分類が問題理解に寄与し,新たなアイデアや戦略を刺激し,現在のアノテーションに重きを置くアプローチを置き換えることを願っている。
関連論文リスト
- Dataset Growth [59.68869191071907]
InfoGrowthは、データのクリーニングとセレクションのための効率的なオンラインアルゴリズムである。
シングルモーダルタスクとマルチモーダルタスクの両方において、データ品質/効率を改善することができる。
論文 参考訳(メタデータ) (2024-05-28T16:43:57Z) - Data Optimization in Deep Learning: A Survey [3.1274367448459253]
本研究の目的は,ディープラーニングのための様々なデータ最適化手法を整理することである。
構築された分類学は分割次元の多様性を考慮し、各次元に深いサブタコノミが構築される。
構築された分類学と明らかにされた接続は、既存の手法のより良い理解と、新しいデータ最適化手法の設計を啓蒙する。
論文 参考訳(メタデータ) (2023-10-25T09:33:57Z) - A Survey of Label-Efficient Deep Learning for 3D Point Clouds [109.07889215814589]
本稿では,点雲のラベル効率学習に関する包括的調査を行う。
本稿では,ラベルの種類によって提供されるデータ前提条件に基づいて,ラベル効率のよい学習手法を整理する分類法を提案する。
それぞれのアプローチについて、問題設定の概要と、関連する進展と課題を示す広範な文献レビューを提供する。
論文 参考訳(メタデータ) (2023-05-31T12:54:51Z) - Towards Label-Efficient Incremental Learning: A Survey [42.603603392991715]
本研究では,学習者が様々な分布を持つデータストリームに適応するために,インクリメンタル学習を学習する。
ラベル付け作業を減らすために, セミショット, 数ショット, 自己教師型学習の3つの区分を同定した。
論文 参考訳(メタデータ) (2023-02-01T10:24:55Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - Data Augmentation techniques in time series domain: A survey and
taxonomy [0.20971479389679332]
時系列を扱うディープニューラルネットワークは、トレーニングで使用されるデータセットのサイズと一貫性に大きく依存する。
この研究は、すべての利用可能なアルゴリズムの概要を提供するために、この分野の最先端を体系的にレビューする。
本研究の究極的な目的は、この分野の将来の研究者を導くために、より良い結果をもたらす領域の進化と性能を概説することである。
論文 参考訳(メタデータ) (2022-06-25T17:09:00Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。
このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文 参考訳(メタデータ) (2021-10-24T22:33:52Z) - Few-shot Partial Multi-view Learning [103.33865779721458]
本稿では,複数ショット部分的多視点学習という新しい課題を提案する。
それは、低データ体制におけるビューミス問題によるネガティブな影響を克服することに焦点を当てている。
提案手法を評価するため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-05-05T13:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。