論文の概要: Learning Accurate Models on Incomplete Data with Minimal Imputation
- arxiv url: http://arxiv.org/abs/2503.13921v1
- Date: Tue, 18 Mar 2025 05:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:21.814132
- Title: Learning Accurate Models on Incomplete Data with Minimal Imputation
- Title(参考訳): 最小インプットを用いた不完全データに基づく高精度モデルの学習
- Authors: Cheng Zhen, Nischal Aryal, Arash Termehchy, Prayoga, Garrett Biwer, Sankalp Patil,
- Abstract要約: データの欠落は実世界のデータセットに存在することが多く、正確な機械学習(ML)モデルを学ぶのにかなりの時間と労力を要する。
我々は、最小限のデータ計算の概念を導入し、命令されたデータセット上でトレーニングされた正確なMLモデルを保証する。
- 参考スコア(独自算出の注目度): 2.5586124684627274
- License:
- Abstract: Missing data often exists in real-world datasets, requiring significant time and effort for imputation to learn accurate machine learning (ML) models. In this paper, we demonstrate that imputing all missing values is not always necessary to achieve an accurate ML model. We introduce the concept of minimal data imputation, which ensures accurate ML models trained over the imputed dataset. Implementing minimal imputation guarantees both minimal imputation effort and optimal ML models. We propose algorithms to find exact and approximate minimal imputation for various ML models. Our extensive experiments indicate that our proposed algorithms significantly reduce the time and effort required for data imputation.
- Abstract(参考訳): データの欠落は実世界のデータセットに存在することが多く、正確な機械学習(ML)モデルを学ぶのにかなりの時間と労力を要する。
本稿では、正確なMLモデルを実現するためには、欠落した全ての値の計算が必ずしも必要ではないことを実証する。
我々は、最小限のデータ計算の概念を導入し、命令されたデータセット上でトレーニングされた正確なMLモデルを保証する。
最小限の計算量を実装することで、最小限の計算量と最適MLモデルの両方が保証される。
そこで本研究では,MLモデルの精度と最小限の計算量を求めるアルゴリズムを提案する。
実験の結果,提案アルゴリズムはデータ計算に要する時間と労力を大幅に削減することがわかった。
関連論文リスト
- Analysis of Zero Day Attack Detection Using MLP and XAI [0.0]
本稿では、侵入検知システム(IDS)を構築するための機械学習(ML)とディープラーニング(DL)に基づくアプローチについて分析する。
KDD99データセットは、ゼロデイ攻撃を検出するために、すべてのデータセットの中で最も研究されている。
ベースラインMLモデル,重み付きMLモデル,重み付きMLモデル,重み付きMLモデルを含む,KDD99データセット上でトレーニングされた4層パーセプトロン(MLP)の性能を評価する。
論文 参考訳(メタデータ) (2025-01-28T02:20:34Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Certain and Approximately Certain Models for Statistical Learning [4.318959672085627]
特定のトレーニングデータや対象モデルに対して,不足値を持つデータから,正確なモデルを直接学習することが可能であることを示す。
我々は、理論的に保証された効率的なアルゴリズムを構築し、この必要条件を確認し、計算が不要な場合に正確なモデルを返す。
論文 参考訳(メタデータ) (2024-02-27T22:49:33Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Minimax rate of consistency for linear models with missing values [0.0]
多くの実世界のデータセットでは、複数のソースが集約され、本質的に欠落した情報(センサーの故障、調査における未回答の疑問...)が欠落する。
本稿では,広範に研究された線形モデルに焦点をあてるが,不足する値が存在する場合には,非常に難しい課題であることが判明した。
最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
論文 参考訳(メタデータ) (2022-02-03T08:45:34Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Data Minimization for GDPR Compliance in Machine Learning Models [0.0]
EUの一般データ保護規則は、収集される特定の目的を満たすために必要なデータのみを要求する。
予測を行うのに必要な個人データの量を削減するための第一種手法を提案する。
本手法では,モデルの精度にはほとんど影響を与えない一般化を実現するために,モデル内に符号化された知識を利用する。
論文 参考訳(メタデータ) (2020-08-06T08:21:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。