論文の概要: Designing Data: Proactive Data Collection and Iteration for Machine
Learning
- arxiv url: http://arxiv.org/abs/2301.10319v2
- Date: Sat, 29 Jul 2023 02:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 23:44:53.029732
- Title: Designing Data: Proactive Data Collection and Iteration for Machine
Learning
- Title(参考訳): データ設計: 機械学習のための積極的なデータ収集とイテレーション
- Authors: Aspen Hopkins, Fred Hohman, Luca Zappella, Xavier Suau Cuadros and
Dominik Moritz
- Abstract要約: データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルのトレーニングを追跡および管理する新しい方法が必要である。
- 参考スコア(独自算出の注目度): 12.295169687537395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lack of diversity in data collection has caused significant failures in
machine learning (ML) applications. While ML developers perform post-collection
interventions, these are time intensive and rarely comprehensive. Thus, new
methods to track & manage data collection, iteration, and model training are
necessary for evaluating whether datasets reflect real world variability. We
present designing data, an iterative approach to data collection connecting HCI
concepts with ML techniques. Our process includes (1) Pre-Collection Planning,
to reflexively prompt and document expected data distributions; (2) Collection
Monitoring, to systematically encourage sampling diversity; and (3) Data
Familiarity, to identify samples that are unfamiliar to a model using density
estimation. We apply designing data to a data collection and modeling task. We
find models trained on ''designed'' datasets generalize better across
intersectional groups than those trained on similarly sized but less targeted
datasets, and that data familiarity is effective for debugging datasets.
- Abstract(参考訳): データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
ML開発者はコンパイル後の介入を行うが、これらは時間がかかり、包括的ではない。
したがって、データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルのトレーニングを追跡および管理する新しい方法が必要である。
本稿では,HCIの概念とML手法を結合するデータ収集手法である設計データを提案する。
本プロセスは,(1)事前収集計画,(1)予測されるデータ分布を柔軟にプロンプトし文書化すること,(2) 多様性を体系的にサンプリングするコレクションモニタリング,(3) 密度推定を用いたモデルに不慣れなサンプルを識別するデータファミリアリティを含む。
データ収集とモデリングタスクに設計データを適用する。
私たちは、'設計'データセットでトレーニングされたモデルが、同じようなサイズだがターゲットの少ないデータセットでトレーニングされたモデルよりも、交差するグループ間でより一般化され、データセットのデバッグにデータ習熟性が有効であることを発見しました。
関連論文リスト
- Fitting Multiple Machine Learning Models with Performance Based Clustering [8.763425474439552]
従来の機械学習のアプローチは、データが単一の生成メカニズムから来ると仮定している。
本稿では,特徴値と対象値の関係に応じてデータをグループ化することで,この仮定を解消するクラスタリングフレームワークを提案する。
フレームワークをストリーミングデータを持つアプリケーションに拡張し、モデルのアンサンブルを使用して結果を生成する。
論文 参考訳(メタデータ) (2024-11-10T19:38:35Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Metadata-based Data Exploration with Retrieval-Augmented Generation for Large Language Models [3.7685718201378746]
本研究では、メタデータに基づくデータ発見を強化するために、レトリーバル拡張生成(RAG)という形式を用いた新しいデータ探索アーキテクチャを提案する。
提案フレームワークは異種データソース間の意味的類似性を評価するための新しい手法を提供する。
論文 参考訳(メタデータ) (2024-10-05T17:11:37Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Overcoming Noisy and Irrelevant Data in Federated Learning [13.963024590508038]
フェデレーション学習は、クライアントデバイスが収集したローカルデータから、機械学習モデルを分散的にトレーニングする効果的な方法である。
そこで我々は,小さなベンチマークデータセットに基づいてトレーニングされたベンチマークモデルを用いて,関連するデータを分散的に選択する手法を提案する。
提案手法の有効性は,多数のクライアントを持つシミュレーションシステムにおいて,複数の実世界の画像データセット上で評価される。
論文 参考訳(メタデータ) (2020-01-22T22:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。