論文の概要: Enhancing Synthetic Oversampling for Imbalanced Datasets Using Proxima-Orion Neighbors and q-Gaussian Weighting Technique
- arxiv url: http://arxiv.org/abs/2501.15790v1
- Date: Mon, 27 Jan 2025 05:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:26.224363
- Title: Enhancing Synthetic Oversampling for Imbalanced Datasets Using Proxima-Orion Neighbors and q-Gaussian Weighting Technique
- Title(参考訳): プロキシオリオン近傍とq-ガウス重み付け技術を用いた不均衡データセットの合成オーバーサンプリングの強化
- Authors: Pankaj Yadav, Vivek Vijay, Gulshan Sihag,
- Abstract要約: 不均衡なデータセットにおけるマイノリティクラスのインスタンス数を増やすための新しいオーバーサンプリングアルゴリズムを提案する。
我々は、相対距離重みと多数クラスインスタンスの密度推定の組み合わせに基づいて、すべての少数クラスのインスタンスの集合からプロキシとオリオンの2つのインスタンスを選択する。
提案手法の有効性を評価するため,KEELソフトウェアから抽出した42データセットとUCI MLリポジトリから抽出した8データセットについて総合的な実験を行った。
- 参考スコア(独自算出の注目度): 0.16385815610837165
- License:
- Abstract: In this article, we propose a novel oversampling algorithm to increase the number of instances of minority class in an imbalanced dataset. We select two instances, Proxima and Orion, from the set of all minority class instances, based on a combination of relative distance weights and density estimation of majority class instances. Furthermore, the q-Gaussian distribution is used as a weighting mechanism to produce new synthetic instances to improve the representation and diversity. We conduct a comprehensive experiment on 42 datasets extracted from KEEL software and eight datasets from the UCI ML repository to evaluate the usefulness of the proposed (PO-QG) algorithm. Wilcoxon signed-rank test is used to compare the proposed algorithm with five other existing algorithms. The test results show that the proposed technique improves the overall classification performance. We also demonstrate the PO-QG algorithm to a dataset of Indian patients with sarcopenia.
- Abstract(参考訳): 本稿では、不均衡なデータセットにおけるマイノリティクラスのインスタンス数を増やすための新しいオーバーサンプリングアルゴリズムを提案する。
我々は、相対距離重みと多数クラスインスタンスの密度推定の組み合わせに基づいて、すべての少数クラスのインスタンスの集合からプロキシとオリオンの2つのインスタンスを選択する。
さらに、q-ガウス分布は、表現と多様性を改善するために新しい合成インスタンスを生成するための重み付け機構として用いられる。
提案手法の有効性を評価するため,KEELソフトウェアから抽出した42データセットとUCI MLリポジトリから抽出した8データセットについて総合的な実験を行った。
ウィルコクソン符号ランク試験は提案アルゴリズムと既存の5つのアルゴリズムを比較するために用いられる。
実験の結果,提案手法は全体の分類性能を向上することが示された。
また,インド人サルコパニア患者のデータセットにPO-QGアルゴリズムを適用した。
関連論文リスト
- A Quantum Approach to Synthetic Minority Oversampling Technique (SMOTE) [1.5186937600119894]
本稿では,機械学習データセットにおけるクラス不均衡の問題を解くために,Quantum-SMOTE法を提案する。
量子SMOTEはスワップテストや量子回転といった量子プロセスを用いて合成データポイントを生成する。
このアプローチは、Telecom Churnの公開データセットでテストされ、その影響と、さまざまな合成データの比率を決定する。
論文 参考訳(メタデータ) (2024-02-27T10:46:36Z) - Generalized Oversampling for Learning from Imbalanced datasets and
Associated Theory [0.0]
教師あり学習では、実際の不均衡なデータセットに直面することが多い。
本稿では,カーネル密度推定に基づくデータ拡張手法であるGOLIATHアルゴリズムを提案する。
我々は,不均衡な回帰状況下でのGOLIATHアルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-08-05T23:08:08Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - A multi-schematic classifier-independent oversampling approach for
imbalanced datasets [0.0]
従来の研究から、異なるオーバーサンプリングアルゴリズムは異なる分類器で異なる効率の度合いを持つことが明らかである。
本稿では,マルチスキーマおよび分類器に依存しないオーバーサンプリング手法であるProWRASを用いて,この問題を克服する。
ProWRASはローカライズされたランダムアフィンシャドウサンプリング (LoRAS) アルゴリズムと Proximity Weighted Synthetic Oversampling (ProWSyn) アルゴリズムを統合している。
論文 参考訳(メタデータ) (2021-07-15T14:03:24Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - A Novel Adaptive Minority Oversampling Technique for Improved
Classification in Data Imbalanced Scenarios [23.257891827728827]
異なるクラスに属するトレーニングサンプルの割合の不均衡は、しばしば従来の分類器の性能低下を引き起こす。
不均衡なデータに対処する新しい3ステップ手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T09:58:02Z) - Revisiting the Sample Complexity of Sparse Spectrum Approximation of
Gaussian Processes [60.479499225746295]
本稿では,ガウス過程に対して,パラメータ空間全体に対して同時に保持可能な保証付きスケーラブルな近似を導入する。
我々の近似は、スパーススペクトルガウス過程(SSGP)のための改良されたサンプル複雑性解析から得られる。
論文 参考訳(メタデータ) (2020-11-17T05:41:50Z) - A Method for Handling Multi-class Imbalanced Data by Geometry based
Information Sampling and Class Prioritized Synthetic Data Generation (GICaPS) [15.433936272310952]
本稿では,多ラベル分類問題における不均衡データ処理の問題について考察する。
特徴ベクトル間の幾何学的関係を利用する2つの新しい手法が提案されている。
提案手法の有効性は,汎用的なマルチクラス認識問題を解くことによって解析する。
論文 参考訳(メタデータ) (2020-10-11T04:04:26Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。