論文の概要: Robust Prediction Model for Multidimensional and Unbalanced Datasets
- arxiv url: http://arxiv.org/abs/2406.03507v1
- Date: Wed, 5 Jun 2024 06:28:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 19:24:39.258465
- Title: Robust Prediction Model for Multidimensional and Unbalanced Datasets
- Title(参考訳): 多次元・不均衡データセットに対するロバスト予測モデル
- Authors: Pooja Thakar, Anil Mehta, Manisha,
- Abstract要約: 本稿では,ロバスト予測モデルを用いて属性の集合を求める。
健康分野、教育分野、ビジネス分野、不正検出分野の5つの異なるデータセットでテストされている。
- 参考スコア(独自算出の注目度): 1.4610685586329806
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data Mining is a promising field and is applied in multiple domains for its predictive capabilities. Data in the real world cannot be readily used for data mining as it suffers from the problems of multidimensionality, unbalance and missing values. It is difficult to use its predictive capabilities by novice users. It is difficult for a beginner to find the relevant set of attributes from a large pool of data available. The paper presents a Robust Prediction Model that finds a relevant set of attributes; resolves the problems of unbalanced and multidimensional real-life datasets and helps in finding patterns for informed decision making. Model is tested upon five different datasets in the domain of Health Sector, Education, Business and Fraud Detection. The results showcase the robust behaviour of the model and its applicability in various domains.
- Abstract(参考訳): データマイニングは有望な分野であり、予測能力のために複数のドメインに適用されている。
実世界のデータは、多次元性、不均衡、欠落した値の問題に悩まされるため、データマイニングに簡単には利用できない。
初心者による予測能力の使用は困難である。
初心者は、利用可能な大量のデータから関連する属性のセットを見つけることは困難である。
本稿では,ロバスト予測モデルを用いて属性の集合を見つけ,不均衡な実生活データセットと多次元実生活データセットの問題を解き,情報的意思決定のためのパターンの発見を支援する。
モデルは、健康分野、教育、ビジネス、詐欺検出の5つの異なるデータセットでテストされる。
その結果、モデルが頑健に動作し、様々な領域で適用可能であることが示された。
関連論文リスト
- The Dataset Multiplicity Problem: How Unreliable Data Impacts
Predictions [12.00314910031517]
トレーニングデータセットにおける不正確性、不確実性、社会的バイアスがテスト時間予測にどのように影響するかを研究するための、データセット乗法を導入する。
本稿では,このフレームワークを用いて,データセットの事実性における様々な不確実性ソースをカプセル化する方法について論じる。
実世界のデータセットは、合理的な仮定の下では、データセットの多重性によって予測される多くのテストサンプルを含んでいることを実証分析により示している。
論文 参考訳(メタデータ) (2023-04-20T21:31:15Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - CAMul: Calibrated and Accurate Multi-view Time-Series Forecasting [70.54920804222031]
本稿では,一般的な確率的マルチビュー予測フレームワークであるCAMulを提案する。
多様なデータソースから表現と不確実性を学ぶことができる。
動的コンテキスト固有の方法で、各データビューからの知識と不確実性を統合する。
CAMulは、他の最先端確率予測モデルよりも精度とキャリブレーションが25%以上向上していることを示す。
論文 参考訳(メタデータ) (2021-09-15T17:13:47Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - MAIN: Multihead-Attention Imputation Networks [4.427447378048202]
本稿では,任意のモデルに適用可能なマルチヘッドアテンションに基づく新しいメカニズムを提案する。
提案手法は、下流タスクの性能を向上させるために、入力データの欠落パターンを誘導的にモデル化する。
論文 参考訳(メタデータ) (2021-02-10T13:50:02Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。