論文の概要: Rare Event Detection in Imbalanced Multi-Class Datasets Using an Optimal MIP-Based Ensemble Weighting Approach
- arxiv url: http://arxiv.org/abs/2412.13439v2
- Date: Fri, 20 Dec 2024 12:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 13:01:33.981595
- Title: Rare Event Detection in Imbalanced Multi-Class Datasets Using an Optimal MIP-Based Ensemble Weighting Approach
- Title(参考訳): 最適MIPに基づくアンサンブル重み付け手法を用いた不均衡なマルチクラスデータセットにおける希少事象検出
- Authors: Georgios Tertytchny, Georgios L. Stavrinides, Maria K. Michael,
- Abstract要約: マルチクラスデータセットは、重要なサイバー物理システムにおけるまれな事象検出に使用される。
最適,効率的,適応可能な混合整数プログラミング(MIP)アンサンブル重み付け方式を提案する。
MIPに基づく手法と6つの確立された重み付け手法を比較検討した。
- 参考スコア(独自算出の注目度): 1.2289361708127877
- License:
- Abstract: To address the challenges of imbalanced multi-class datasets typically used for rare event detection in critical cyber-physical systems, we propose an optimal, efficient, and adaptable mixed integer programming (MIP) ensemble weighting scheme. Our approach leverages the diverse capabilities of the classifier ensemble on a granular per class basis, while optimizing the weights of classifier-class pairs using elastic net regularization for improved robustness and generalization. Additionally, it seamlessly and optimally selects a predefined number of classifiers from a given set. We evaluate and compare our MIP-based method against six well-established weighting schemes, using representative datasets and suitable metrics, under various ensemble sizes. The experimental results reveal that MIP outperforms all existing approaches, achieving an improvement in balanced accuracy ranging from 0.99% to 7.31%, with an overall average of 4.53% across all datasets and ensemble sizes. Furthermore, it attains an overall average increase of 4.63%, 4.60%, and 4.61% in macro-averaged precision, recall, and F1-score, respectively, while maintaining computational efficiency.
- Abstract(参考訳): 重要なサイバー物理システムにおいて,まれな事象検出に使用される不均衡なマルチクラスデータセットの課題に対処するために,最適,効率的,適応可能な混合整数プログラミング(MIP)アンサンブル重み付け方式を提案する。
提案手法は, クラスごとに粒度の異なる分類器アンサンブルの多種多様な機能を活用し, 弾性ネット正規化を用いて分類器-クラスペアの重みを最適化し, 堅牢性と一般化性を向上させる。
さらに、与えられた集合から予め定義された分類器の数をシームレスかつ最適に選択する。
MIPに基づく手法と6つのよく確立された重み付け手法を比較し,様々なアンサンブルサイズで代表的データセットと適切な測定値を用いて比較した。
実験の結果、MIPは既存のすべてのアプローチより優れており、すべてのデータセットとアンサンブルサイズで平均4.53%のバランスの取れた精度が0.99%から7.31%に向上していることが明らかになった。
さらに、計算効率を保ちながら、マクロ平均精度、リコール、F1スコアの合計平均増加率は4.63%、4.60%、および4.61%に達する。
関連論文リスト
- Aioli: A Unified Optimization Framework for Language Model Data Mixing [74.50480703834508]
既存の手法では、グループごとの平均的なテストパープレキシティにおいて、単純な階層化サンプリングベースラインを一貫して上回る結果が得られない。
我々は、Aioliという新しいオンライン手法を導き、トレーニング全体を通して法パラメータの混合を直接推定し、それらを用いて比率を動的に調整する。
論文 参考訳(メタデータ) (2024-11-08T17:50:24Z) - Ensemble Methods for Sequence Classification with Hidden Markov Models [8.241486511994202]
隠れマルコフモデル(HMM)のためのアンサンブル手法を用いたシーケンス分類への軽量なアプローチを提案する。
HMMは、その単純さ、解釈可能性、効率性のために、不均衡または小さいデータセットを持つシナリオにおいて、大きな利点を提供する。
アンサンブルに基づくスコアリング手法により,任意の長さのシーケンスの比較が可能となり,不均衡なデータセットの性能が向上する。
論文 参考訳(メタデータ) (2024-09-11T20:59:32Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - BooleanOCT: Optimal Classification Trees based on multivariate Boolean
Rules [14.788278997556606]
最適な分類木を導出するために,MIP(Mixed-integer Programming)の定式化を導入する。
提案手法は,F1スコアなどの非線形指標と同様に,精度,バランスの取れた精度,コストに敏感なコストを含む線形メトリクスを統合する。
提案したモデルでは,実世界のデータセットに対して現実的な可解性を示し,数万のサイズの処理を効果的に行う。
論文 参考訳(メタデータ) (2024-01-29T12:58:44Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Precision-Weighted Federated Learning [1.8160945635344528]
フェデレート学習環境で訓練されたモデルのパラメータの重み付け平均を計算する際に,勾配のばらつきを考慮した新しいアルゴリズムを提案する。
本手法は,2つの異なるデータ分割戦略 (IID/non-IID) を持つ標準画像分類データセットを用いて,資源制約環境下での手法の性能と速度を測定した。
論文 参考訳(メタデータ) (2021-07-20T17:17:10Z) - Hybrid Ensemble optimized algorithm based on Genetic Programming for
imbalanced data classification [0.0]
本稿では,2種類の不均衡データ分類のための遺伝的プログラミング(GP)に基づくハイブリッドアンサンブルアルゴリズムを提案する。
実験結果から,提案手法をトレーニングセットのサイズで指定したデータセット上での性能は,マイノリティクラス予測の他の次元よりも40%,50%高い精度を示した。
論文 参考訳(メタデータ) (2021-06-02T14:14:38Z) - PLM: Partial Label Masking for Imbalanced Multi-label Classification [59.68444804243782]
長いラベルの分布を持つ実世界のデータセットで訓練されたニューラルネットワークは、頻繁なクラスに偏りがあり、頻繁なクラスでは不十分である。
本稿では,この比率を利用したPLM(Partial Label Masking)を提案する。
本手法は,マルチラベル (MultiMNIST と MSCOCO) とシングルラベル (CIFAR-10 と CIFAR-100) の2つの画像分類データセットにおいて,既存の手法と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-05-22T18:07:56Z) - Data Dependent Randomized Smoothing [127.34833801660233]
データ依存フレームワークは、3つのランダムな平滑化アプローチにシームレスに組み込むことができます。
CIFAR10とImageNetで0.5の半径の最強ベースラインの認定精度よりも9%と6%の改善が得られています。
論文 参考訳(メタデータ) (2020-12-08T10:53:11Z) - Two-Step Meta-Learning for Time-Series Forecasting Ensemble [1.1278903078792915]
いくつかのメソッドのアンサンブルを使用した予測は、しばしば妥協と見なされる。
メタラーニングを用いてこれらの側面を適応的に予測することを提案する。
提案手法は12561マイクロ・エコノミック・タイムシリーズで試験された。
論文 参考訳(メタデータ) (2020-11-20T18:35:02Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。