論文の概要: Towards Modeling Data Quality and Machine Learning Model Performance
- arxiv url: http://arxiv.org/abs/2412.05882v1
- Date: Sun, 08 Dec 2024 10:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:57:21.016006
- Title: Towards Modeling Data Quality and Machine Learning Model Performance
- Title(参考訳): データ品質と機械学習モデルの性能のモデリングに向けて
- Authors: Usman Anjum, Chris Trentman, Elrod Caden, Justin Zhan,
- Abstract要約: 距離-雑音比 (SNR) で精度がどう変化するか, モデルの性能を決定するためにDDR精度曲線をどう使うかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Understanding the effect of uncertainty and noise in data on machine learning models (MLM) is crucial in developing trust and measuring performance. In this paper, a new model is proposed to quantify uncertainties and noise in data on MLMs. Using the concept of signal-to-noise ratio (SNR), a new metric called deterministic-non-deterministic ratio (DDR) is proposed to formulate performance of a model. Using synthetic data in experiments, we show how accuracy can change with DDR and how we can use DDR-accuracy curves to determine performance of a model.
- Abstract(参考訳): データにおける不確実性とノイズが機械学習モデル(MLM)に与える影響を理解することは、信頼性と測定性能の発達に不可欠である。
本稿では,MLMデータにおける不確実性とノイズを定量化する新しいモデルを提案する。
信号対雑音比(SNR)の概念を用いて、モデルの性能を定式化するために、決定論的非決定論的比(DDR)と呼ばれる新しい指標を提案する。
実験で合成データを用いて、DDRで精度がどのように変化するか、モデルの性能を決定するためにDDR精度曲線をどのように使用できるかを示す。
関連論文リスト
- On Rollouts in Model-Based Reinforcement Learning [5.004576576202551]
モデルベース強化学習(MBRL)は、環境のモデルを学び、そこから合成ロールアウトを生成することにより、データ効率を向上させることを目指している。
これらのロールアウト中に蓄積されたモデルエラーは、データの分散を歪め、ポリシー学習に悪影響を及ぼし、長期計画を妨げる可能性がある。
本稿では,アレータリックをモデル不確実性から分離し,データ分布に対する後者の影響を低減するモデルベースのロールアウト機構であるInfopropを提案する。
論文 参考訳(メタデータ) (2025-01-28T13:02:52Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Quality In / Quality Out: Data quality more relevant than model choice in anomaly detection with the UGR'16 [0.29998889086656577]
ベンチマークデータセットの比較的小さな変更は、考慮された特定のML手法よりも、モデルパフォーマンスに著しく影響することを示します。
また、不正確なラベル付けの結果、測定されたモデル性能が不確かであることも示す。
論文 参考訳(メタデータ) (2023-05-31T12:03:12Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z) - Training Structured Mechanical Models by Minimizing Discrete
Euler-Lagrange Residual [36.52097893036073]
structured mechanical models (smms) は、機械システムのデータ効率の良いブラックボックスパラメータ化である。
離散オイラーラグランジュ残差を最小化することにより,SMMをデータに適用する手法を提案する。
実験の結果,従来のSMMの適合方式よりも精度の高いモデルが得られた。
論文 参考訳(メタデータ) (2021-05-05T00:44:01Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Computer Model Calibration with Time Series Data using Deep Learning and
Quantile Regression [1.6758573326215689]
既存の標準校正フレームワークは、モデル出力と観測データが高次元依存データである場合、推論の問題に悩まされる。
モデル出力と入力パラメータの逆関係を直接エミュレートする長期記憶層を持つディープニューラルネットワーク(DNN)に基づく新しいキャリブレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-29T22:18:41Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。