論文の概要: To impute or not to impute: How machine learning modelers treat missing data
- arxiv url: http://arxiv.org/abs/2503.16644v1
- Date: Thu, 20 Mar 2025 18:55:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:55:27.051092
- Title: To impute or not to impute: How machine learning modelers treat missing data
- Title(参考訳): インプット・アンド・インプット:機械学習のモデラーが欠落したデータをどのように扱うか
- Authors: Wanyi Chen, Mary Cummings,
- Abstract要約: 我々は、データ処理方法の欠如について、70人の機械学習研究者とエンジニアを対象に調査を行った。
その結果、ほとんどの参加者は、データ処理の欠如について情報的な判断をしていないことが明らかとなった。
私たちは、欠落データに関するより良い教育、標準化された欠落データレポート、欠落データ分析ツールを提唱します。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Missing data is prevalent in tabular machine learning (ML) models, and different missing data treatment methods can significantly affect ML model training results. However, little is known about how ML researchers and engineers choose missing data treatment methods and what factors affect their choices. To this end, we conducted a survey of 70 ML researchers and engineers. Our results revealed that most participants were not making informed decisions regarding missing data treatment, which could significantly affect the validity of the ML models trained by these researchers. We advocate for better education on missing data, more standardized missing data reporting, and better missing data analysis tools.
- Abstract(参考訳): 欠落したデータは表型機械学習(ML)モデルで一般的であり、異なる欠落したデータ処理手法はMLモデルのトレーニング結果に大きな影響を及ぼす可能性がある。
しかし、MLの研究者やエンジニアがデータ処理方法の欠如と、その選択に影響する要因についてはほとんど分かっていない。
この目的のために,70人の機械学習研究者とエンジニアを対象に調査を行った。
その結果、ほとんどの被験者は、データ処理の欠如に関する情報的な判断をしていないことが明らかとなり、これらの研究者が訓練したMLモデルの妥当性に大きな影響を及ぼす可能性が示唆された。
私たちは、欠落データに関するより良い教育、標準化された欠落データレポート、欠落データ分析ツールを提唱します。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Machine Learning Data Suitability and Performance Testing Using Fault
Injection Testing Framework [0.0]
本稿では,入力データ(FIUL-Data)テストフレームワークにおける望ましくない学習のためのフォールトインジェクションを提案する。
データミュータは、さまざまな障害注入の影響に対して、MLシステムの脆弱性を探索する。
本稿では, アンチセンスオリゴヌクレオチドの保持時間測定を含む分析化学データを用いて, フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-09-20T12:58:35Z) - Learn to Unlearn: A Survey on Machine Unlearning [29.077334665555316]
本稿では,最近の機械学習技術,検証機構,潜在的攻撃について概説する。
新たな課題と今後の研究方向性を強調します。
本稿では、プライバシ、エクイティ、レジリエンスをMLシステムに統合するための貴重なリソースの提供を目的としている。
論文 参考訳(メタデータ) (2023-05-12T14:28:02Z) - Oversampling Higher-Performing Minorities During Machine Learning Model
Training Reduces Adverse Impact Slightly but Also Reduces Model Accuracy [18.849426971487077]
トレーニングデータにおける有害影響率を操作するために,少数者(黒人およびヒスパニック系)を体系的に過小評価し,過大評価した。
その結果,トレーニングデータによる影響は,MLモデルの悪影響と線形に関連していることがわかった。
本研究は, 自己申告書と面接書にまたがる一貫した効果を観察し, 実測, 合成観察をオーバーサンプリングした。
論文 参考訳(メタデータ) (2023-04-27T02:53:29Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。