論文の概要: Exploring Dataset-Scale Indicators of Data Quality
- arxiv url: http://arxiv.org/abs/2311.04016v1
- Date: Tue, 7 Nov 2023 14:14:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 15:08:37.728958
- Title: Exploring Dataset-Scale Indicators of Data Quality
- Title(参考訳): データ品質のデータセットスケール指標の探索
- Authors: Benjamin Feuer, Chinmay Hegde
- Abstract要約: 現代のコンピュータビジョン基礎モデルは膨大な量のデータに基づいて訓練されており、経済と環境のコストが増大している。
近年の研究では、データ品質の向上はデータ量の必要性を大幅に減らすことが示唆されている。
与えられたデータセットの品質は、異なるサンプルレベルとデータセットレベルに分解できると仮定する。
- 参考スコア(独自算出の注目度): 23.017200605976807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern computer vision foundation models are trained on massive amounts of
data, incurring large economic and environmental costs. Recent research has
suggested that improving data quality can significantly reduce the need for
data quantity. But what constitutes data quality in computer vision? We posit
that the quality of a given dataset can be decomposed into distinct
sample-level and dataset-level constituents, and that the former have been more
extensively studied than the latter. We ablate the effects of two important
dataset-level constituents: label set design, and class balance. By monitoring
these constituents using key indicators we provide, researchers and
practitioners can better anticipate model performance, measured in terms of its
accuracy and robustness to distribution shifts.
- Abstract(参考訳): 現代のコンピュータビジョンの基礎モデルは大量のデータに基づいて訓練され、経済と環境に大きなコストがかかる。
近年の研究では、データ品質の向上はデータ量の必要性を大幅に減らすことが示唆されている。
しかし、コンピュータビジョンにおけるデータ品質とは何か?
与えられたデータセットの品質は、異なるサンプルレベルとデータセットレベルの構成要素に分解でき、前者は後者よりも広範囲に研究されていると仮定する。
ラベルセット設計とクラスバランスという,2つの重要なデータセットレベルの構成要素の効果を比較検討する。
私たちが提供する重要な指標を使ってこれらの構成要素を監視することで、研究者や実践者は、分散シフトに対する正確性と堅牢性の観点から測定したモデルパフォーマンスをより良く予測できます。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-07T14:28:04Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - Assessing Dataset Quality Through Decision Tree Characteristics in
Autoencoder-Processed Spaces [0.30458514384586394]
データセットの品質がモデルトレーニングとパフォーマンスに深く影響していることを示します。
以上の結果から,適切な特徴選択,適切なデータボリューム,データ品質の重要性が浮き彫りになった。
この研究は、データアセスメントのプラクティスに関する貴重な洞察を提供し、より正確で堅牢な機械学習モデルの開発に寄与する。
論文 参考訳(メタデータ) (2023-06-27T11:33:31Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - A Survey of Dataset Refinement for Problems in Computer Vision Datasets [11.45536223418548]
大規模データセットはコンピュータビジョンの進歩に重要な役割を果たしてきた。
クラス不均衡、ノイズの多いラベル、データセットバイアス、高いリソースコストといった問題に悩まされることが多い。
データセット問題を解決するために、様々なデータ中心のソリューションが提案されている。
データセットを再構成することで、データセットの品質が向上します。
論文 参考訳(メタデータ) (2022-10-21T03:58:43Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - A Proposal to Study "Is High Quality Data All We Need?" [8.122270502556374]
本稿では,高品質なベンチマークデータのサブセットの選択方法,および/または生成方法を検討するための実証的研究を提案する。
私たちは、タスクを学ぶために大きなデータセットが本当に必要かどうか、そして、高品質なデータの小さなサブセットが大きなデータセットを置き換えることができるかどうかに答えようとしています。
論文 参考訳(メタデータ) (2022-03-12T10:50:13Z) - On The State of Data In Computer Vision: Human Annotations Remain
Indispensable for Developing Deep Learning Models [0.0]
高品質ラベル付きデータセットは機械学習(ML)の発展に重要な役割を果たす
2012年にImageNetデータセットとAlexNetモデルが登場して以来、新しいオープンソースのラベル付きビジョンデータセットのサイズはほぼ一定である。
コンピュータビジョンコミュニティの少数の出版物は、Imagenetよりも桁違いの大きさのデータセットの教師付き学習に取り組む。
論文 参考訳(メタデータ) (2021-07-31T00:08:21Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Data Quality Measures and Efficient Evaluation Algorithms for
Large-Scale High-Dimensional Data [0.15229257192293197]
データ品質の2つの重要な側面であるクラス分離性とクラス内の変動性を計算する2つのデータ品質対策を提案します。
ランダムなプロジェクションとブートストレッピングに基づいて,大規模高次元データに対する統計的利点を生かした品質測定を効率的に行うアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-05T10:23:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。