Fugu-MT 論文翻訳(概要): Detecting Errors in Numerical Data via any Regression Model

論文の概要: Detecting Errors in Numerical Data via any Regression Model

arxiv url: http://arxiv.org/abs/2305.16583v1
Date: Fri, 26 May 2023 02:15:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 17:19:04.515609
Title: Detecting Errors in Numerical Data via any Regression Model
Title（参考訳）: 回帰モデルによる数値データ中の誤差の検出
Authors: Hang Zhou, Jonas Mueller, Mayank Kumar, Jane-Ling Wang and Jing Lei
Abstract要約: ノイズは多くの数値データセットを悩ませ、データ中の記録された値が真の基礎となる値と一致しない可能性がある。ここでは,数値列に沿ってデータ値の誤りを推定する。本稿では,この列の値の予測に適した幻想回帰器を利用するモデルに依存しない手法を提案する。
参考スコア（独自算出の注目度）: 26.035327531205812
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Noise plagues many numerical datasets, where the recorded values in the data may fail to match the true underlying values due to reasons including: erroneous sensors, data entry/processing mistakes, or imperfect human estimates. Here we consider estimating \emph{which} data values are incorrect along a numerical column. We present a model-agnostic approach that can utilize \emph{any} regressor (i.e.\ statistical or machine learning model) which was fit to predict values in this column based on the other variables in the dataset. By accounting for various uncertainties, our approach distinguishes between genuine anomalies and natural data fluctuations, conditioned on the available information in the dataset. We establish theoretical guarantees for our method and show that other approaches like conformal inference struggle to detect errors. We also contribute a new error detection benchmark involving 5 regression datasets with real-world numerical errors (for which the true values are also known). In this benchmark and additional simulation studies, our method identifies incorrect values with better precision/recall than other approaches.
Abstract（参考訳）: ノイズは多くの数値データセットを悩ませており、データに記録された値は、誤ったセンサー、データ入力/処理ミス、不完全な人間の推定など、真の基礎となる値と一致しない可能性がある。ここでは,数値列に沿ってデータ値が誤りであることを推定する。我々は,データセット内の他の変数に基づいて,この列内の値を予測するのに適した,<emph{any} regressor(統計モデルまたは機械学習モデル)を利用するモデル非依存なアプローチを提案する。様々な不確実性を考慮することで,データセット内の利用可能な情報に基づいて,真の異常と自然データゆらぎを区別する。本手法の理論的保証を確立し,コンフォメーション推論などの手法が誤り検出に苦慮していることを示す。また,実世界の数値誤差を含む5つの回帰データセット(真の値も知られている)を含む新しいエラー検出ベンチマークも提案する。このベンチマークおよび追加シミュレーション研究において,本手法は他の手法よりも精度/リコールが良い不正確な値を同定する。

関連論文リスト

Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文参考訳（メタデータ） (2025-09-27T20:57:48Z)
Linear Regression under Missing or Corrupted Coordinates [58.9213131489513]
我々は,コーディネート的な予算の下で,敵によってデータの破損や消去を行う方法について検討する。不完全なデータ設定では、敵はデータセットを検査し、最大1座標あたりのサンプルの$eta$-fractionのエントリを削除することができる。破損したデータ設定では、敵は代わりに任意に値を置換し、その汚職位置は学習者にとって未知である。
論文参考訳（メタデータ） (2025-09-23T17:01:43Z)
Contrastive Error Attribution for Finetuned Language Models [35.80256755393739]
ノイズと誤記のデータは、自然言語生成(NLG)タスクにおける幻覚と不誠実なアウトプットの中核的な原因である。望ましくないアウトプットにつながる低品質のトレーニングインスタンスを特定し、削除するフレームワークを導入します。本研究では、勾配に基づく影響尺度のような既存の誤差追跡手法は、忠実度誤差を検出するために確実に機能しないことを示す。
論文参考訳（メタデータ） (2022-12-21T02:28:07Z)
Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。 CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文参考訳（メタデータ） (2022-07-13T14:13:49Z)
Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文参考訳（メタデータ） (2022-05-25T15:26:48Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
Efficient remedies for outlier detection with variational autoencoders [8.80692072928023]
深層生成モデルによって計算される類似度は、ラベルなしデータによる外れ値検出の候補メトリックである。理論的に定位された補正は、VAE推定値による鍵バイアスを容易に改善することを示す。また,VAEのアンサンブル上で計算される確率の分散により,ロバストな外乱検出が可能となることを示す。
論文参考訳（メタデータ） (2021-08-19T16:00:58Z)
Predicting Disease Progress with Imprecise Lab Test Results [8.70310158726824]
既存のディープラーニング手法では、ほとんど全ての損失関数は、予測されたサンプルデータ値が正しい唯一のものであると仮定する。本稿では,病状進行予測のための命令範囲損失(IR損失)法を提案し,それをLong Short Term Memory(LSTM)モデルに組み込む。実データを用いた実験結果から,IR損失に基づく予測手法により,より安定かつ一貫した予測結果が得られることが示された。
論文参考訳（メタデータ） (2021-07-08T06:03:44Z)
Evaluating State-of-the-Art Classification Models Against Bayes Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文参考訳（メタデータ） (2021-06-07T06:21:20Z)
Scalable Marginal Likelihood Estimation for Model Selection in Deep Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文参考訳（メタデータ） (2021-04-11T09:50:24Z)
A Hypergradient Approach to Robust Regression without Correspondence [85.49775273716503]
本稿では,入力データと出力データとの対応が不十分な回帰問題について考察する。ほとんどの既存手法はサンプルサイズが小さい場合にのみ適用できる。シャッフル回帰問題に対する新しい計算フレームワークであるROBOTを提案する。
論文参考訳（メタデータ） (2020-11-30T21:47:38Z)
Matrix Completion with Quantified Uncertainty through Low Rank Gaussian Copula [30.84155327760468]
本稿では,不確かさを定量化した値計算の欠如に対する枠組みを提案する。モデルに適合するために必要な時間は、データセット内の行数や列数と線形にスケールする。実験結果から,本手法は様々な種類のデータに対して最先端の計算精度が得られることがわかった。
論文参考訳（メタデータ） (2020-06-18T19:51:42Z)
On the consistency of supervised learning with missing values [15.666860186278782]
多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。本研究では,学習前の平均値など,一定値が得られない場合に一定であることを示す。
論文参考訳（メタデータ） (2019-02-19T07:27:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。