論文の概要: Predicting feature imputability in the absence of ground truth
- arxiv url: http://arxiv.org/abs/2007.07052v1
- Date: Tue, 14 Jul 2020 14:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:36:46.040621
- Title: Predicting feature imputability in the absence of ground truth
- Title(参考訳): 地底真理の欠如による特徴不合理性予測
- Authors: Niamh McCombe, Xuemei Ding, Girijesh Prasad, David P. Finn, Stephen
Todd, Paula L. McClean, KongFatt Wong-Lin
- Abstract要約: 実生活の応用において、データが正確にインプットされたかどうか(真実の欠如)を評価することは困難である。
本稿では,個々のデータの特徴を正確に説明できるかどうかを判断するための,効果的でシンプルな主成分ベース手法を提案する。
- 参考スコア(独自算出の注目度): 2.7684432804249477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data imputation is the most popular method of dealing with missing values,
but in most real life applications, large missing data can occur and it is
difficult or impossible to evaluate whether data has been imputed accurately
(lack of ground truth). This paper addresses these issues by proposing an
effective and simple principal component based method for determining whether
individual data features can be accurately imputed - feature imputability. In
particular, we establish a strong linear relationship between principal
component loadings and feature imputability, even in the presence of extreme
missingness and lack of ground truth. This work will have important
implications in practical data imputation strategies.
- Abstract(参考訳): データ計算は、欠落した値を扱う最も一般的な方法であるが、ほとんどの実生活アプリケーションでは、大きな欠落データが発生する可能性があり、データが正確にインプットされたかどうかを評価することは困難または不可能である(基礎的真実の欠如)。
本稿では,個々のデータの特徴を正確に説明できるかどうかを判断するための,効果的でシンプルな主成分に基づく手法を提案する。
特に, 極度の欠如や根拠の欠如がある場合でも, 主成分負荷と特徴インプタビリティとの間に強い線形関係が確立される。
この研究は、実践的なデータ計算戦略に重要な意味を持つだろう。
関連論文リスト
- Accuracy on the wrong line: On the pitfalls of noisy data for out-of-distribution generalisation [70.36344590967519]
ノイズの多いデータやニュアンスの特徴は,その正確さを損なうのに十分であることを示す。
ノイズの多いデータとノイズのある特徴を持つ合成データセットと実データセットの両方で、この現象を実証する。
論文 参考訳(メタデータ) (2024-06-27T09:57:31Z) - Iterative missing value imputation based on feature importance [6.300806721275004]
我々は特徴量を考慮した計算手法を考案した。
このアルゴリズムは、反復的に行列補完と特徴重要学習を行い、具体的には、特徴重要度を含む充足損失に基づいて行列補完を行う。
これらのデータセットの結果は,提案手法が既存の5つの計算アルゴリズムより優れていることを一貫して示している。
論文 参考訳(メタデータ) (2023-11-14T09:03:33Z) - Conditional expectation with regularization for missing data imputation [19.254291863337347]
欠落したデータは、医学、スポーツ、ファイナンスなど、さまざまな領域のデータセットで頻繁に発生する。
正規化による損失値の条件分布に基づくインプット(DIMV)という新しいアルゴリズムを提案する。
DIMVは、完全に観察された特徴からの情報をベースとして、エントリが不足している特徴の条件分布を決定することで機能する。
論文 参考訳(メタデータ) (2023-02-02T06:59:15Z) - LARD: Large-scale Artificial Disfluency Generation [0.0]
複雑で現実的な人工的不一致を少ない労力で生成する手法である LARD を提案する。
提案手法は, 繰り返し, 置換, 再起動の3種類の相反を処理できる。
4つの異なるタスクで使用できる、分散を持つ新しい大規模データセットをリリースする。
論文 参考訳(メタデータ) (2022-01-13T16:02:36Z) - Understanding Memorization from the Perspective of Optimization via
Efficient Influence Estimation [54.899751055620904]
本研究では,実データ(実データ)とランダムラベル(ランダムデータ)のデータに対する,ターンオーバードロップアウトによる暗記現象,影響と暗記を効率的に推定する手法について検討する。
i) 実データと乱データの両方において、簡単な例(例えば、実データ)と難しい例(例えば、乱データ)の最適化は、ネットワークによって同時に行われる。
論文 参考訳(メタデータ) (2021-12-16T11:34:23Z) - Fairness in Missing Data Imputation [2.3605348648054463]
我々は、欠落したデータ計算の公正性に関する最初の既知の研究を行う。
一般に使用されている3つのデータセットにおけるインパルス化手法の性能について検討することにより、欠落した値のインパルス化の不公平さが広く存在することを示す。
以上の結果から,実際に関連する要因を慎重に調査することで,不当なデータ計算による不公平を軽減できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-22T18:29:17Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Overcoming the curse of dimensionality with Laplacian regularization in
semi-supervised learning [80.20302993614594]
ラプラシア正規化の欠点を克服するための統計的解析を提供する。
望ましい振る舞いを示すスペクトルフィルタリング法を多数発表する。
我々は,本手法を大量のデータで利用できるようにするために,現実的な計算ガイドラインを提供する。
論文 参考訳(メタデータ) (2020-09-09T14:28:54Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Nonparametric Feature Impact and Importance [0.6123324869194193]
データ上で直接動作する部分依存曲線から導かれる特徴的影響と重要性の数学的定義を与える。
品質を評価するために、これらの定義によってランク付けされた特徴は、既存の特徴選択技術と競合することを示す。
論文 参考訳(メタデータ) (2020-06-08T17:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。