論文の概要: Detecting Errors in a Numerical Response via any Regression Model
- arxiv url: http://arxiv.org/abs/2305.16583v3
- Date: Wed, 13 Mar 2024 03:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 18:57:07.281517
- Title: Detecting Errors in a Numerical Response via any Regression Model
- Title(参考訳): 回帰モデルによる数値応答における誤差の検出
- Authors: Hang Zhou, Jonas Mueller, Mayank Kumar, Jane-Ling Wang and Jing Lei
- Abstract要約: ノイズは多くの数値データセットを悩ませ、データ中の記録された値が真の基礎となる値と一致しない可能性がある。
真の誤りと自然データゆらぎを区別する妥当性スコアを導入する。
また,実世界の数値誤差を伴う5つの回帰データセットを含む新しいエラー検出ベンチマークも提案する。
- 参考スコア(独自算出の注目度): 21.651775224356214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Noise plagues many numerical datasets, where the recorded values in the data
may fail to match the true underlying values due to reasons including:
erroneous sensors, data entry/processing mistakes, or imperfect human
estimates. We consider general regression settings with covariates and a
potentially corrupted response whose observed values may contain errors. By
accounting for various uncertainties, we introduced veracity scores that
distinguish between genuine errors and natural data fluctuations, conditioned
on the available covariate information in the dataset. We propose a simple yet
efficient filtering procedure for eliminating potential errors, and establish
theoretical guarantees for our method. We also contribute a new error detection
benchmark involving 5 regression datasets with real-world numerical errors (for
which the true values are also known). In this benchmark and additional
simulation studies, our method identifies incorrect values with better
precision/recall than other approaches.
- Abstract(参考訳): ノイズは多くの数値データセットを悩ませており、データに記録された値は、誤ったセンサー、データ入力/処理ミス、不完全な人間の推定などの理由で、真の基礎となる値と一致しない可能性がある。
我々は、共変量を用いた一般的な回帰設定と、観測値がエラーを含む可能性のある潜在的に破損した応答を考える。
様々な不確実性を考慮し,データセットの共変量情報に基づいて,真偽と自然データゆらぎを識別する妥当性スコアを導入した。
本稿では,潜在的な誤りを除去するための簡易かつ効率的なフィルタリング手法を提案し,提案手法の理論的保証を確立する。
また,実世界の数値誤差を含む5つの回帰データセット(真の値も知られている)を含む新しいエラー検出ベンチマークも提案する。
このベンチマークと追加シミュレーションでは,他の手法よりも精度・リコールの精度が良い不正確な値が同定される。
関連論文リスト
- Contrastive Error Attribution for Finetuned Language Models [35.80256755393739]
ノイズと誤記のデータは、自然言語生成(NLG)タスクにおける幻覚と不誠実なアウトプットの中核的な原因である。
望ましくないアウトプットにつながる低品質のトレーニングインスタンスを特定し、削除するフレームワークを導入します。
本研究では、勾配に基づく影響尺度のような既存の誤差追跡手法は、忠実度誤差を検出するために確実に機能しないことを示す。
論文 参考訳(メタデータ) (2022-12-21T02:28:07Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Efficient remedies for outlier detection with variational autoencoders [8.80692072928023]
深層生成モデルによって計算される類似度は、ラベルなしデータによる外れ値検出の候補メトリックである。
理論的に定位された補正は、VAE推定値による鍵バイアスを容易に改善することを示す。
また,VAEのアンサンブル上で計算される確率の分散により,ロバストな外乱検出が可能となることを示す。
論文 参考訳(メタデータ) (2021-08-19T16:00:58Z) - Predicting Disease Progress with Imprecise Lab Test Results [8.70310158726824]
既存のディープラーニング手法では、ほとんど全ての損失関数は、予測されたサンプルデータ値が正しい唯一のものであると仮定する。
本稿では,病状進行予測のための命令範囲損失(IR損失)法を提案し,それをLong Short Term Memory(LSTM)モデルに組み込む。
実データを用いた実験結果から,IR損失に基づく予測手法により,より安定かつ一貫した予測結果が得られることが示された。
論文 参考訳(メタデータ) (2021-07-08T06:03:44Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - A Hypergradient Approach to Robust Regression without Correspondence [85.49775273716503]
本稿では,入力データと出力データとの対応が不十分な回帰問題について考察する。
ほとんどの既存手法はサンプルサイズが小さい場合にのみ適用できる。
シャッフル回帰問題に対する新しい計算フレームワークであるROBOTを提案する。
論文 参考訳(メタデータ) (2020-11-30T21:47:38Z) - Matrix Completion with Quantified Uncertainty through Low Rank Gaussian
Copula [30.84155327760468]
本稿では,不確かさを定量化した値計算の欠如に対する枠組みを提案する。
モデルに適合するために必要な時間は、データセット内の行数や列数と線形にスケールする。
実験結果から,本手法は様々な種類のデータに対して最先端の計算精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-06-18T19:51:42Z) - On the consistency of supervised learning with missing values [15.666860186278782]
多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。
本研究では,学習前の平均値など,一定値が得られない場合に一定であることを示す。
論文 参考訳(メタデータ) (2019-02-19T07:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。