論文の概要: Simplicial SMOTE: Oversampling Solution to the Imbalanced Learning Problem
- arxiv url: http://arxiv.org/abs/2503.03418v1
- Date: Wed, 05 Mar 2025 11:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:16.964856
- Title: Simplicial SMOTE: Oversampling Solution to the Imbalanced Learning Problem
- Title(参考訳): シンプルSMOTE:不均衡学習問題に対するオーバーサンプリングソリューション
- Authors: Oleg Kachan, Andrey Savchenko, Gleb Gusev,
- Abstract要約: 本稿では,幾何学的近傍の単体錯体の単純さから抽出する新しい手法であるSimplicial SMOTEを提案する。
我々はSMOTEが幾つもの一般的な幾何的サンプリング法より優れていることを実験的に実証した。
- 参考スコア(独自算出の注目度): 6.018244616008522
- License:
- Abstract: SMOTE (Synthetic Minority Oversampling Technique) is the established geometric approach to random oversampling to balance classes in the imbalanced learning problem, followed by many extensions. Its idea is to introduce synthetic data points of the minor class, with each new point being the convex combination of an existing data point and one of its k-nearest neighbors. In this paper, by viewing SMOTE as sampling from the edges of a geometric neighborhood graph and borrowing tools from the topological data analysis, we propose a novel technique, Simplicial SMOTE, that samples from the simplices of a geometric neighborhood simplicial complex. A new synthetic point is defined by the barycentric coordinates w.r.t. a simplex spanned by an arbitrary number of data points being sufficiently close rather than a pair. Such a replacement of the geometric data model results in better coverage of the underlying data distribution compared to existing geometric sampling methods and allows the generation of synthetic points of the minority class closer to the majority class on the decision boundary. We experimentally demonstrate that our Simplicial SMOTE outperforms several popular geometric sampling methods, including the original SMOTE. Moreover, we show that simplicial sampling can be easily integrated into existing SMOTE extensions. We generalize and evaluate simplicial extensions of the classic Borderline SMOTE, Safe-level SMOTE, and ADASYN algorithms, all of which outperform their graph-based counterparts.
- Abstract(参考訳): SMOTE (Synthetic Minority Oversampling Technique) は、不均衡学習問題におけるクラスバランスにランダムなオーバーサンプリングを行うための幾何学的手法である。
その考え方は、それぞれの新しい点は、既存のデータポイントとk-アネレストの隣人の凸結合である、マイナークラスの合成データポイントを導入することである。
本稿では,SMOTEを幾何学的近傍グラフのエッジからのサンプリングとトポロジカルデータ解析からのツールの借用とみなして,幾何学的近傍SMOTEの単純さからサンプルを抽出する手法であるSimplicial SMOTEを提案する。
新しい合成点は、一対ではなく十分近い任意の数のデータポイントにまたがる単純点のバリ中心座標 w.r.t. によって定義される。
このような幾何的データモデルの置換は、既存の幾何サンプリング法と比較して、基礎となるデータ分布のカバレッジを向上し、決定境界上の多数クラスに近いマイノリティクラスの合成点の生成を可能にする。
我々は、SMOTEが元のSMOTEを含む幾何サンプリング法よりも優れていることを実験的に実証した。
さらに,既存のSMOTE拡張に簡易サンプリングを組み込むことが可能であることを示す。
我々は,従来の境界線SMOTE,セーフレベルSMOTE,ADASYNアルゴリズムの単純な拡張を一般化し,評価する。
関連論文リスト
- Minimum Enclosing Ball Synthetic Minority Oversampling Technique from a Geometric Perspective [1.7851435784917604]
クラス不均衡は、データセット内の異なるクラスからのサンプルの数に顕著な違いを示す。
この問題は、ソフトウェア欠陥予測、診断、不正検出など、現実世界の分類タスクで広く使われている。
クラス不均衡問題に対処するために合成マイノリティオーバーサンプリング技術(SMOTE)が広く用いられている。
本稿では,幾何学的観点から最小閉球(MEB-SMOTE)法を提案する。
論文 参考訳(メタデータ) (2024-08-07T03:37:25Z) - Disentangled Representation Learning with the Gromov-Monge Gap [65.73194652234848]
乱れのないデータから歪んだ表現を学習することは、機械学習における根本的な課題である。
本稿では,2次最適輸送に基づく非交叉表現学習手法を提案する。
提案手法の有効性を4つの標準ベンチマークで示す。
論文 参考訳(メタデータ) (2024-07-10T16:51:32Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - BSGAN: A Novel Oversampling Technique for Imbalanced Pattern
Recognitions [0.0]
クラス不均衡問題(CIP)は、予測のための非バイアスの機械学習(ML)モデルを開発する際の潜在的な課題の1つである。
CIPは、データサンプルが2つまたは複数のクラス間で等しく分散されていない場合に発生する。
本研究では,より多様なデータを生成するために,境界線SMOTEとジェネレーティブ・アドリラル・ネットワークのパワーを組み合わせたハイブリッド・オーバーサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:02:39Z) - Invariant Representations of Embedded Simplicial Complexes [0.0]
多くの分野において、三角メッシュやグラフのような埋め込み単純複体を解析することは重要な問題である。
本稿では, 位相情報と幾何学情報のみを用いて, サブディビジョン不変およびアイソメトリー不変の方法で, 組込みsimplicial Complexを解析するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-27T07:49:05Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - BIMS-PU: Bi-Directional and Multi-Scale Point Cloud Upsampling [60.257912103351394]
我々はBIMS-PUと呼ばれる新しいポイント・クラウド・アップサンプリング・パイプラインを開発した。
対象のサンプリング因子を小さな因子に分解することにより,アップ/ダウンサンプリング手順をいくつかのアップ/ダウンサンプリングサブステップに分解する。
提案手法は最先端手法よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-25T13:13:37Z) - Primitive-based Shape Abstraction via Nonparametric Bayesian Inference [29.7543198254021]
本稿では,未知数の幾何学的プリミティブからなる抽象化を点雲から推論する,新しい非パラメトリックベイズ統計法を提案する。
提案手法は精度において最先端の手法より優れており,様々な種類のオブジェクトに対して一般化可能である。
論文 参考訳(メタデータ) (2022-03-28T13:00:06Z) - Finding Geometric Models by Clustering in the Consensus Space [61.65661010039768]
本稿では,未知数の幾何学的モデル,例えばホモグラフィーを求めるアルゴリズムを提案する。
複数の幾何モデルを用いることで精度が向上するアプリケーションをいくつか提示する。
これには、複数の一般化されたホモグラフからのポーズ推定、高速移動物体の軌道推定が含まれる。
論文 参考訳(メタデータ) (2021-03-25T14:35:07Z) - A Method for Handling Multi-class Imbalanced Data by Geometry based
Information Sampling and Class Prioritized Synthetic Data Generation (GICaPS) [15.433936272310952]
本稿では,多ラベル分類問題における不均衡データ処理の問題について考察する。
特徴ベクトル間の幾何学的関係を利用する2つの新しい手法が提案されている。
提案手法の有効性は,汎用的なマルチクラス認識問題を解くことによって解析する。
論文 参考訳(メタデータ) (2020-10-11T04:04:26Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。