論文の概要: Missing Data Imputation With Granular Semantics and AI-driven Pipeline for Bankruptcy Prediction
- arxiv url: http://arxiv.org/abs/2404.00013v1
- Date: Fri, 15 Mar 2024 13:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-07 23:17:33.321153
- Title: Missing Data Imputation With Granular Semantics and AI-driven Pipeline for Bankruptcy Prediction
- Title(参考訳): 破産予測のための粒状セマンティックスとAI駆動パイプラインによるデータ計算の欠如
- Authors: Debarati Chakraborty, Ravi Ranjan,
- Abstract要約: この研究は、倒産予測のためのパイプラインの設計に焦点を当てている。
欠落した値、高次元データ、高クラス不均衡データベースの存在は、そのタスクにおける大きな課題である。
粒度のセマンティクスを付加した新しいデータ計算法が導入された。
- 参考スコア(独自算出の注目度): 0.34530027457862006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work focuses on designing a pipeline for the prediction of bankruptcy. The presence of missing values, high dimensional data, and highly class-imbalance databases are the major challenges in the said task. A new method for missing data imputation with granular semantics has been introduced here. The merits of granular computing have been explored here to define this method. The missing values have been predicted using the feature semantics and reliable observations in a low-dimensional space, in the granular space. The granules are formed around every missing entry, considering a few of the highly correlated features and most reliable closest observations to preserve the relevance and reliability, the context, of the database against the missing entries. An intergranular prediction is then carried out for the imputation within those contextual granules. That is, the contextual granules enable a small relevant fraction of the huge database to be used for imputation and overcome the need to access the entire database repetitively for each missing value. This method is then implemented and tested for the prediction of bankruptcy with the Polish Bankruptcy dataset. It provides an efficient solution for big and high-dimensional datasets even with large imputation rates. Then an AI-driven pipeline for bankruptcy prediction has been designed using the proposed granular semantic-based data filling method followed by the solutions to the issues like high dimensional dataset and high class-imbalance in the dataset. The rest of the pipeline consists of feature selection with the random forest for reducing dimensionality, data balancing with SMOTE, and prediction with six different popular classifiers including deep NN. All methods defined here have been experimentally verified with suitable comparative studies and proven to be effective on all the data sets captured over the five years.
- Abstract(参考訳): この研究は、倒産予測のためのパイプラインの設計に焦点を当てている。
欠落した値、高次元データ、高クラス不均衡データベースの存在は、そのタスクにおける大きな課題である。
粒度のセマンティクスを付加した新しいデータ計算法が導入された。
粒度計算の利点は、この方法を定義するために研究されている。
欠落した値は,低次元空間における特徴意味論と信頼性のある観測値を用いて,粒状空間において予測されている。
グラニュラーは、欠落したエントリに対するデータベースの関連性と信頼性、コンテキストを維持するために、非常に相関性の高い特徴のいくつかと最も信頼性の高い最も近い観察を考慮し、欠落したエントリの周囲に形成されている。
次に、それらの文脈的顆粒内における計算のために粒界間予測を行う。
すなわち、コンテキストのグラニュラーは、巨大なデータベースのごく一部を計算に使用し、欠落する各値に対してデータベース全体にアクセスする必要性を克服します。
この手法は、ポーランド破産データセットを用いて破産予測のために実装され、試験される。
これは、大きな計算速度であっても、大規模で高次元のデータセットに対して効率的なソリューションを提供する。
そして、提案した粒度のセマンティックベースのデータフィリング手法を用いて、倒産予測のためのAI駆動パイプラインを設計し、それに続いて、高次元データセットやデータセットの高クラス不均衡といった問題に対する解決策を導いた。
パイプラインの残りの部分は、次元の減少のためのランダムフォレストによる特徴選択、SMOTEによるデータバランシング、ディープNNを含む6つの一般的な分類器による予測で構成されている。
ここで定義されたすべての手法は、適切な比較研究によって実験的に検証され、5年間に収集された全てのデータセットに有効であることが証明された。
関連論文リスト
- Iterative Forgetting: Online Data Stream Regression Using Database-Inspired Adaptive Granulation [1.6874375111244329]
本稿では、R*木からインスピレーションを得て、入ってくるデータストリームからグラニュラーを生成するデータベースインスピレーション付きデータストリーム回帰モデルを提案する。
実験により、この手法がデータを破棄する能力は、レイテンシとトレーニング時間において大幅に改善されることが示された。
論文 参考訳(メタデータ) (2024-03-14T17:26:00Z) - BlockEcho: Retaining Long-Range Dependencies for Imputing Block-Wise
Missing Data [2.507127323074818]
ブロックワイドなデータ不足は、実世界のデータ計算タスクにおいて重大な課題を生じさせる。
多くのSOTA行列補完法は、主に予測のために近隣の要素を過度に頼っているため、効果が低かった。
より包括的な解法として,新しい行列補完手法BlockEchoを提案する。
論文 参考訳(メタデータ) (2024-02-29T02:13:10Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Robust self-healing prediction model for high dimensional data [0.685316573653194]
本研究は、ロバスト自己治癒(RSH)ハイブリッド予測モデルを提案する。
それは、データを捨てるのではなく、エラーや不整合を取り除くことによって、データ全体を活用することによって機能する。
提案手法は,既存のハイパフォーマンスモデルと比較し,解析を行った。
論文 参考訳(メタデータ) (2022-10-04T17:55:50Z) - Predicting Seriousness of Injury in a Traffic Accident: A New Imbalanced
Dataset and Benchmark [62.997667081978825]
本稿では,交通事故における傷害の重大性を予測するために,機械学習アルゴリズムの性能を評価する新しいデータセットを提案する。
データセットは、英国運輸省から公開されているデータセットを集約することで作成される。
論文 参考訳(メタデータ) (2022-05-20T21:15:26Z) - Minimax rate of consistency for linear models with missing values [0.0]
多くの実世界のデータセットでは、複数のソースが集約され、本質的に欠落した情報(センサーの故障、調査における未回答の疑問...)が欠落する。
本稿では,広範に研究された線形モデルに焦点をあてるが,不足する値が存在する場合には,非常に難しい課題であることが判明した。
最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
論文 参考訳(メタデータ) (2022-02-03T08:45:34Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Learning Output Embeddings in Structured Prediction [73.99064151691597]
構造化予測に対する強力で柔軟なアプローチは、予測される構造化対象を潜在的に無限次元の特徴空間に埋め込むことである。
原空間における予測は、前像問題の解法により計算される。
本研究では,新しい特徴空間に出力埋め込みと回帰関数の有限近似を共同で学習することを提案する。
論文 参考訳(メタデータ) (2020-07-29T09:32:53Z) - Establishing strong imputation performance of a denoising autoencoder in
a wide range of missing data problems [0.0]
トレーニングと計算の両方に一貫したフレームワークを開発します。
結果と最先端の計算手法を比較検討した。
開発されたオートエンコーダは、初期データ破損のあらゆる範囲において最小の誤差を得た。
論文 参考訳(メタデータ) (2020-04-06T12:00:30Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。