論文の概要: Designing Data: Proactive Data Collection and Iteration for Machine
Learning
- arxiv url: http://arxiv.org/abs/2301.10319v1
- Date: Tue, 24 Jan 2023 21:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 16:23:18.985061
- Title: Designing Data: Proactive Data Collection and Iteration for Machine
Learning
- Title(参考訳): データ設計: 機械学習のための積極的なデータ収集とイテレーション
- Authors: Aspen Hopkins, Fred Hohman, Luca Zappella, Xavier Suau Cuadros and
Dominik Moritz
- Abstract要約: データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
本稿では,データ収集の概念とML手法を結合する反復的バイアス緩和手法であるデータ設計について述べる。
設計”データセットでトレーニングされたモデルは、同じようなサイズだがターゲットの少ないデータセットでトレーニングされたモデルよりも、交差点グループ間でより一般的なものになっています。
- 参考スコア(独自算出の注目度): 12.295169687537395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lack of diversity in data collection has caused significant failures in
machine learning (ML) applications. While ML developers perform post-collection
interventions, these are time intensive and rarely comprehensive. Thus, new
methods to track and manage data collection, iteration, and model training are
necessary for evaluating whether datasets reflect real world variability. We
present designing data, an iterative, bias mitigating approach to data
collection connecting HCI concepts with ML techniques. Our process includes (1)
Pre-Collection Planning, to reflexively prompt and document expected data
distributions; (2) Collection Monitoring, to systematically encourage sampling
diversity; and (3) Data Familiarity, to identify samples that are unfamiliar to
a model through Out-of-Distribution (OOD) methods. We instantiate designing
data through our own data collection and applied ML case study. We find models
trained on "designed" datasets generalize better across intersectional groups
than those trained on similarly sized but less targeted datasets, and that data
familiarity is effective for debugging datasets.
- Abstract(参考訳): データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
ML開発者はコンパイル後の介入を行うが、これらは時間がかかり、包括的ではない。
したがって、データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルトレーニングを追跡および管理する新しい方法が必要である。
本稿では,HCIの概念とML手法を結合するデータ収集における,反復的バイアス緩和手法であるデータ設計について述べる。
本プロセスは,(1)事前収集計画,(2)回帰的にプロンプトし,期待されるデータ分布を文書化する,(2)標本の多様性を体系的に奨励する収集監視,(3)不慣れなサンプルを分散(ood)手法で同定するデータ親密度を含む。
我々は、データ収集とMLケーススタディを適用して、設計データをインスタンス化する。
設計”データセットでトレーニングされたモデルが、同じようなサイズだがターゲットの少ないデータセットでトレーニングされたモデルよりも、交差点グループ間でより一般的なものになります。
関連論文リスト
- Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - On Inter-dataset Code Duplication and Data Leakage in Large Language
Models [5.704848262917858]
本稿では,データセット間の重複現象とその大規模言語モデル(LLM)評価への影響について検討する。
復号化プロセスを用いて,事前学習データセットと微調整データセットの交点を同定する。
CSNで事前学習した4つのモデルを微調整し、事前学習中に見いだされたサンプルと、その段階で見つからないモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-01-15T19:46:40Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - Adaptive Sampling Strategies to Construct Equitable Training Datasets [0.7036032466145111]
コンピュータビジョンから自然言語処理までの領域では、機械学習モデルがスタークの相違を示すことが示されている。
これらのパフォーマンスギャップに寄与する要因の1つは、モデルがトレーニングしたデータに表現力の欠如である。
公平なトレーニングデータセットを作成する際の問題を形式化し、この問題に対処するための統計的枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-31T19:19:30Z) - Fix your Models by Fixing your Datasets [0.6058427379240697]
現在の機械学習ツールは、データ品質を改善するための合理化されたプロセスを欠いている。
そこで,本研究では,データセットにノイズや誤認のあるサンプルを見つけるための体系的枠組みを提案する。
2つのFortune 500企業のプライベートエンタープライズデータセットと同様に、当社のフレームワークの有効性を公開してみます。
論文 参考訳(メタデータ) (2021-12-15T02:41:50Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Overcoming Noisy and Irrelevant Data in Federated Learning [13.963024590508038]
フェデレーション学習は、クライアントデバイスが収集したローカルデータから、機械学習モデルを分散的にトレーニングする効果的な方法である。
そこで我々は,小さなベンチマークデータセットに基づいてトレーニングされたベンチマークモデルを用いて,関連するデータを分散的に選択する手法を提案する。
提案手法の有効性は,多数のクライアントを持つシミュレーションシステムにおいて,複数の実世界の画像データセット上で評価される。
論文 参考訳(メタデータ) (2020-01-22T22:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。