論文の概要: Designing Data: Proactive Data Collection and Iteration for Machine
Learning
- arxiv url: http://arxiv.org/abs/2301.10319v1
- Date: Tue, 24 Jan 2023 21:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 16:23:18.985061
- Title: Designing Data: Proactive Data Collection and Iteration for Machine
Learning
- Title(参考訳): データ設計: 機械学習のための積極的なデータ収集とイテレーション
- Authors: Aspen Hopkins, Fred Hohman, Luca Zappella, Xavier Suau Cuadros and
Dominik Moritz
- Abstract要約: データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
本稿では,データ収集の概念とML手法を結合する反復的バイアス緩和手法であるデータ設計について述べる。
設計”データセットでトレーニングされたモデルは、同じようなサイズだがターゲットの少ないデータセットでトレーニングされたモデルよりも、交差点グループ間でより一般的なものになっています。
- 参考スコア(独自算出の注目度): 12.295169687537395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lack of diversity in data collection has caused significant failures in
machine learning (ML) applications. While ML developers perform post-collection
interventions, these are time intensive and rarely comprehensive. Thus, new
methods to track and manage data collection, iteration, and model training are
necessary for evaluating whether datasets reflect real world variability. We
present designing data, an iterative, bias mitigating approach to data
collection connecting HCI concepts with ML techniques. Our process includes (1)
Pre-Collection Planning, to reflexively prompt and document expected data
distributions; (2) Collection Monitoring, to systematically encourage sampling
diversity; and (3) Data Familiarity, to identify samples that are unfamiliar to
a model through Out-of-Distribution (OOD) methods. We instantiate designing
data through our own data collection and applied ML case study. We find models
trained on "designed" datasets generalize better across intersectional groups
than those trained on similarly sized but less targeted datasets, and that data
familiarity is effective for debugging datasets.
- Abstract(参考訳): データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
ML開発者はコンパイル後の介入を行うが、これらは時間がかかり、包括的ではない。
したがって、データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルトレーニングを追跡および管理する新しい方法が必要である。
本稿では,HCIの概念とML手法を結合するデータ収集における,反復的バイアス緩和手法であるデータ設計について述べる。
本プロセスは,(1)事前収集計画,(2)回帰的にプロンプトし,期待されるデータ分布を文書化する,(2)標本の多様性を体系的に奨励する収集監視,(3)不慣れなサンプルを分散(ood)手法で同定するデータ親密度を含む。
我々は、データ収集とMLケーススタディを適用して、設計データをインスタンス化する。
設計”データセットでトレーニングされたモデルが、同じようなサイズだがターゲットの少ないデータセットでトレーニングされたモデルよりも、交差点グループ間でより一般的なものになります。
関連論文リスト
- Fitting Multiple Machine Learning Models with Performance Based Clustering [8.763425474439552]
従来の機械学習のアプローチは、データが単一の生成メカニズムから来ると仮定している。
本稿では,特徴値と対象値の関係に応じてデータをグループ化することで,この仮定を解消するクラスタリングフレームワークを提案する。
フレームワークをストリーミングデータを持つアプリケーションに拡張し、モデルのアンサンブルを使用して結果を生成する。
論文 参考訳(メタデータ) (2024-11-10T19:38:35Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Metadata-based Data Exploration with Retrieval-Augmented Generation for Large Language Models [3.7685718201378746]
本研究では、メタデータに基づくデータ発見を強化するために、レトリーバル拡張生成(RAG)という形式を用いた新しいデータ探索アーキテクチャを提案する。
提案フレームワークは異種データソース間の意味的類似性を評価するための新しい手法を提供する。
論文 参考訳(メタデータ) (2024-10-05T17:11:37Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Overcoming Noisy and Irrelevant Data in Federated Learning [13.963024590508038]
フェデレーション学習は、クライアントデバイスが収集したローカルデータから、機械学習モデルを分散的にトレーニングする効果的な方法である。
そこで我々は,小さなベンチマークデータセットに基づいてトレーニングされたベンチマークモデルを用いて,関連するデータを分散的に選択する手法を提案する。
提案手法の有効性は,多数のクライアントを持つシミュレーションシステムにおいて,複数の実世界の画像データセット上で評価される。
論文 参考訳(メタデータ) (2020-01-22T22:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。