論文の概要: Stacked Generalizations in Imbalanced Fraud Data Sets using Resampling
Methods
- arxiv url: http://arxiv.org/abs/2004.01764v1
- Date: Fri, 3 Apr 2020 20:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 04:10:16.008536
- Title: Stacked Generalizations in Imbalanced Fraud Data Sets using Resampling
Methods
- Title(参考訳): 再サンプリング法による不均衡フラッドデータセットの重ね合わせ一般化
- Authors: Kathleen Kerwin and Nathaniel D. Bastian
- Abstract要約: 本研究では,メタあるいはスーパーラーナと呼ばれる2段階の機械学習手法を組み合わせることによって,アルゴリズムの性能向上を図る。
アルゴリズムのサンプルセットのすべての置換を考慮に入れたテストハーネスを構築することは、複雑な本質的なデータ構造がすべて徹底的にテストされていることを示す。
- 参考スコア(独自算出の注目度): 2.741266294612776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study uses stacked generalization, which is a two-step process of
combining machine learning methods, called meta or super learners, for
improving the performance of algorithms in step one (by minimizing the error
rate of each individual algorithm to reduce its bias in the learning set) and
then in step two inputting the results into the meta learner with its stacked
blended output (demonstrating improved performance with the weakest algorithms
learning better). The method is essentially an enhanced cross-validation
strategy. Although the process uses great computational resources, the
resulting performance metrics on resampled fraud data show that increased
system cost can be justified. A fundamental key to fraud data is that it is
inherently not systematic and, as of yet, the optimal resampling methodology
has not been identified. Building a test harness that accounts for all
permutations of algorithm sample set pairs demonstrates that the complex,
intrinsic data structures are all thoroughly tested. Using a comparative
analysis on fraud data that applies stacked generalizations provides useful
insight needed to find the optimal mathematical formula to be used for
imbalanced fraud data sets.
- Abstract(参考訳): 本研究は、メタまたはスーパーラーナーと呼ばれる機械学習手法を組み合わせる2段階のプロセスであるスタック一般化を用いて、ステップ1におけるアルゴリズムの性能を改善する(学習セットにおけるバイアスを減らすために個々のアルゴリズムの誤差率を最小化)。
この方法は本質的に拡張されたクロスバリデーション戦略である。
このプロセスは優れた計算資源を使用するが、再サンプリングされた不正データの性能測定結果から、システムコストの増加を正当化できることが示された。
不正データの基本的な鍵は、本質的に体系的ではなく、現在でも最適な再サンプリング手法が特定されていないことである。
アルゴリズムサンプルセットペアのすべての置換を考慮したテストハーネスの構築は、複雑で本質的なデータ構造がすべて徹底的にテストされていることを示している。
累積一般化を適用した不正データの比較分析を用いることで、不均衡な不正データセットに使用する最適な数学的公式を見つけるのに有用な洞察が得られる。
関連論文リスト
- A General Online Algorithm for Optimizing Complex Performance Metrics [5.726378955570775]
我々は,バイナリ,マルチクラス,マルチラベルの分類問題において,様々な複雑なパフォーマンス指標を用いて,直接的に使用可能な汎用オンラインアルゴリズムを導入,分析する。
アルゴリズムの更新と予測のルールは、過去のデータを保存することなく、非常にシンプルで計算的に効率的である。
論文 参考訳(メタデータ) (2024-06-20T21:24:47Z) - Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - Benchmark of Data Preprocessing Methods for Imbalanced Classification [0.0]
深刻な階級不均衡は、サイバーセキュリティにおける機械学習を難しくする主要な条件の1つだ。
本稿では,6つのサイバーセキュリティデータセットに対する16の事前処理手法のベンチマークと,他のドメインからの17の公開不均衡データセットについて述べる。
論文 参考訳(メタデータ) (2023-03-06T13:12:43Z) - Algorithms that Approximate Data Removal: New Results and Limitations [2.6905021039717987]
本研究では,経験的リスク最小化を用いて学習した機械学習モデルからユーザデータを削除することの問題点について検討する。
計算とメモリ効率を両立させるオンラインアンラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-09-25T17:20:33Z) - Interpolation-based Contrastive Learning for Few-Label Semi-Supervised
Learning [43.51182049644767]
半教師付き学習(SSL)は,ラベルが限定された強力なモデルを構築する上で,有効な手法であることが長年証明されてきた。
摂動サンプルを元のものと類似した予測を強制する正規化に基づく手法が注目されている。
本稿では,学習ネットワークの埋め込みを誘導し,サンプル間の線形変化を誘導する新たな対照的な損失を提案する。
論文 参考訳(メタデータ) (2022-02-24T06:00:05Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Dictionary and prior learning with unrolled algorithms for unsupervised
inverse problems [12.54744464424354]
本稿では,二段階問題として,劣化測定による辞書と事前学習について検討する。
合成と解析の近似定式化を解くために, アンロールアルゴリズムを利用する。
論文 参考訳(メタデータ) (2021-06-11T12:21:26Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。