論文の概要: Dataset Growth
- arxiv url: http://arxiv.org/abs/2405.18347v1
- Date: Tue, 28 May 2024 16:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 17:40:27.906230
- Title: Dataset Growth
- Title(参考訳): データセットの成長
- Authors: Ziheng Qin, Zhaopan Xu, Yukun Zhou, Zangwei Zheng, Zebang Cheng, Hao Tang, Lei Shang, Baigui Sun, Xiaojiang Peng, Radu Timofte, Hongxun Yao, Kai Wang, Yang You,
- Abstract要約: InfoGrowthは、データのクリーニングとセレクションのための効率的なオンラインアルゴリズムである。
シングルモーダルタスクとマルチモーダルタスクの両方において、データ品質/効率を改善することができる。
- 参考スコア(独自算出の注目度): 59.68869191071907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning benefits from the growing abundance of available data. Meanwhile, efficiently dealing with the growing data scale has become a challenge. Data publicly available are from different sources with various qualities, and it is impractical to do manual cleaning against noise and redundancy given today's data scale. There are existing techniques for cleaning/selecting the collected data. However, these methods are mainly proposed for offline settings that target one of the cleanness and redundancy problems. In practice, data are growing exponentially with both problems. This leads to repeated data curation with sub-optimal efficiency. To tackle this challenge, we propose InfoGrowth, an efficient online algorithm for data cleaning and selection, resulting in a growing dataset that keeps up to date with awareness of cleanliness and diversity. InfoGrowth can improve data quality/efficiency on both single-modal and multi-modal tasks, with an efficient and scalable design. Its framework makes it practical for real-world data engines.
- Abstract(参考訳): ディープラーニングは、利用可能なデータの豊富さから恩恵を受ける。
一方、データスケールの増大に効率よく対処することが課題となっている。
公開されているデータは様々な品質の異なるソースから提供されており、今日のデータスケールによって、ノイズや冗長性に対して手動でクリーニングを行うことは現実的ではない。
収集したデータのクリーニング/選択には、既存の技術がある。
しかし、これらの手法は主に、クリーンネスと冗長性の問題の1つをターゲットにしたオフライン設定のために提案されている。
実際には、データは両方の問題で指数関数的に増加しています。
これにより、データキュレーションの繰り返しが、最適以下の効率で行われます。
この課題に対処するために、データクリーニングと選択のための効率的なオンラインアルゴリズムであるInfoGrowthを提案する。
InfoGrowthは、効率的でスケーラブルな設計で、シングルモーダルタスクとマルチモーダルタスクの両方のデータ品質/効率を改善することができる。
そのフレームワークは現実世界のデータエンジンに実用的だ。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Active Data Acquisition in Autonomous Driving Simulation [0.0]
本稿では,アクティブデータ収集戦略の概念を提案する。
高品質なデータでは、コレクション密度の増加はデータセットの全体的な品質を改善することができる。
論文 参考訳(メタデータ) (2023-06-24T10:07:35Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - The Lean Data Scientist: Recent Advances towards Overcoming the Data
Bottleneck [16.18460753647167]
機械学習(ML)は、ほとんどすべての科学と産業に影響を及ぼし、世界を変えつつある。
最近のアルゴリズムはますますデータに飢えており、トレーニングには大規模なデータセットが必要である。
しかし、そのような規模の高品質なデータセットを取得することは難しい課題である。
論文 参考訳(メタデータ) (2022-11-15T07:44:56Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - Autoencoder-based cleaning in probabilistic databases [0.0]
ほぼ自動でデータ品質を向上できるデータクリーニングオートエンコーダを提案する。
データの構造と依存関係を学び、疑わしい値を識別し、修正する。
論文 参考訳(メタデータ) (2021-06-17T18:46:56Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - Generative Low-bitwidth Data Free Quantization [44.613912463011545]
本稿ではGDFQ(Generative Low-bitdth Data Free Quantization)を提案する。
生成したデータの助けを借りて、事前学習されたモデルから知識を学習することでモデルを定量化することができる。
提案手法は,既存のデータ自由量子化法よりも高精度な4ビット量子化を実現する。
論文 参考訳(メタデータ) (2020-03-07T16:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。