論文の概要: Detecting Errors in Numerical Data via any Regression Model
- arxiv url: http://arxiv.org/abs/2305.16583v1
- Date: Fri, 26 May 2023 02:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:19:04.515609
- Title: Detecting Errors in Numerical Data via any Regression Model
- Title(参考訳): 回帰モデルによる数値データ中の誤差の検出
- Authors: Hang Zhou, Jonas Mueller, Mayank Kumar, Jane-Ling Wang and Jing Lei
- Abstract要約: ノイズは多くの数値データセットを悩ませ、データ中の記録された値が真の基礎となる値と一致しない可能性がある。
ここでは,数値列に沿ってデータ値の誤りを推定する。
本稿では,この列の値の予測に適した幻想回帰器を利用するモデルに依存しない手法を提案する。
- 参考スコア(独自算出の注目度): 26.035327531205812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Noise plagues many numerical datasets, where the recorded values in the data
may fail to match the true underlying values due to reasons including:
erroneous sensors, data entry/processing mistakes, or imperfect human
estimates. Here we consider estimating \emph{which} data values are incorrect
along a numerical column. We present a model-agnostic approach that can utilize
\emph{any} regressor (i.e.\ statistical or machine learning model) which was
fit to predict values in this column based on the other variables in the
dataset. By accounting for various uncertainties, our approach distinguishes
between genuine anomalies and natural data fluctuations, conditioned on the
available information in the dataset. We establish theoretical guarantees for
our method and show that other approaches like conformal inference struggle to
detect errors. We also contribute a new error detection benchmark involving 5
regression datasets with real-world numerical errors (for which the true values
are also known). In this benchmark and additional simulation studies, our
method identifies incorrect values with better precision/recall than other
approaches.
- Abstract(参考訳): ノイズは多くの数値データセットを悩ませており、データに記録された値は、誤ったセンサー、データ入力/処理ミス、不完全な人間の推定など、真の基礎となる値と一致しない可能性がある。
ここでは,数値列に沿ってデータ値が誤りであることを推定する。
我々は,データセット内の他の変数に基づいて,この列内の値を予測するのに適した,<emph{any} regressor(統計モデルまたは機械学習モデル)を利用するモデル非依存なアプローチを提案する。
様々な不確実性を考慮することで,データセット内の利用可能な情報に基づいて,真の異常と自然データゆらぎを区別する。
本手法の理論的保証を確立し,コンフォメーション推論などの手法が誤り検出に苦慮していることを示す。
また,実世界の数値誤差を含む5つの回帰データセット(真の値も知られている)を含む新しいエラー検出ベンチマークも提案する。
このベンチマークおよび追加シミュレーション研究において,本手法は他の手法よりも精度/リコールが良い不正確な値を同定する。
関連論文リスト
- Contrastive Error Attribution for Finetuned Language Models [35.80256755393739]
ノイズと誤記のデータは、自然言語生成(NLG)タスクにおける幻覚と不誠実なアウトプットの中核的な原因である。
望ましくないアウトプットにつながる低品質のトレーニングインスタンスを特定し、削除するフレームワークを導入します。
本研究では、勾配に基づく影響尺度のような既存の誤差追跡手法は、忠実度誤差を検出するために確実に機能しないことを示す。
論文 参考訳(メタデータ) (2022-12-21T02:28:07Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Efficient remedies for outlier detection with variational autoencoders [8.80692072928023]
深層生成モデルによって計算される類似度は、ラベルなしデータによる外れ値検出の候補メトリックである。
理論的に定位された補正は、VAE推定値による鍵バイアスを容易に改善することを示す。
また,VAEのアンサンブル上で計算される確率の分散により,ロバストな外乱検出が可能となることを示す。
論文 参考訳(メタデータ) (2021-08-19T16:00:58Z) - Predicting Disease Progress with Imprecise Lab Test Results [8.70310158726824]
既存のディープラーニング手法では、ほとんど全ての損失関数は、予測されたサンプルデータ値が正しい唯一のものであると仮定する。
本稿では,病状進行予測のための命令範囲損失(IR損失)法を提案し,それをLong Short Term Memory(LSTM)モデルに組み込む。
実データを用いた実験結果から,IR損失に基づく予測手法により,より安定かつ一貫した予測結果が得られることが示された。
論文 参考訳(メタデータ) (2021-07-08T06:03:44Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - A Hypergradient Approach to Robust Regression without Correspondence [85.49775273716503]
本稿では,入力データと出力データとの対応が不十分な回帰問題について考察する。
ほとんどの既存手法はサンプルサイズが小さい場合にのみ適用できる。
シャッフル回帰問題に対する新しい計算フレームワークであるROBOTを提案する。
論文 参考訳(メタデータ) (2020-11-30T21:47:38Z) - Matrix Completion with Quantified Uncertainty through Low Rank Gaussian
Copula [30.84155327760468]
本稿では,不確かさを定量化した値計算の欠如に対する枠組みを提案する。
モデルに適合するために必要な時間は、データセット内の行数や列数と線形にスケールする。
実験結果から,本手法は様々な種類のデータに対して最先端の計算精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-06-18T19:51:42Z) - On the consistency of supervised learning with missing values [15.666860186278782]
多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。
本研究では,学習前の平均値など,一定値が得られない場合に一定であることを示す。
論文 参考訳(メタデータ) (2019-02-19T07:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。