論文の概要: Graph-Based Bidirectional Transformer Decision Threshold Adjustment Algorithm for Class-Imbalanced Molecular Data
- arxiv url: http://arxiv.org/abs/2406.06479v3
- Date: Wed, 4 Sep 2024 02:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 02:31:44.678303
- Title: Graph-Based Bidirectional Transformer Decision Threshold Adjustment Algorithm for Class-Imbalanced Molecular Data
- Title(参考訳): クラス不均衡分子データに対するグラフベース双方向トランスフォーマー決定閾値調整アルゴリズム
- Authors: Nicole Hayes, Ekaterina Merkurjev, Guo-Wei Wei,
- Abstract要約: 本稿では,Merriman-Bence-Osher(MBO)アプローチと双方向トランスフォーマーを組み合わせたBTDT-MBOアルゴリズムを提案する。
提案手法は,クラス不均衡に対処するために,MBOアルゴリズムの分類しきい値に調整を組み込むだけでなく,自己教師あり学習のための注意機構に基づく双方向トランスフォーマー手法を用いる。
提案手法は6つの分子データセットを用いて検証し,他の手法と比較した。
- 参考スコア(独自算出の注目度): 1.3108652488669732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data sets with imbalanced class sizes, where one class size is much smaller than that of others, occur exceedingly often in many applications, including those with biological foundations, such as disease diagnosis and drug discovery. Therefore, it is extremely important to be able to identify data elements of classes of various sizes, as a failure to do so can result in heavy costs. Nonetheless, many data classification procedures do not perform well on imbalanced data sets as they often fail to detect elements belonging to underrepresented classes. In this work, we propose the BTDT-MBO algorithm, incorporating Merriman-Bence-Osher (MBO) approaches and a bidirectional transformer, as well as distance correlation and decision threshold adjustments, for data classification tasks on highly imbalanced molecular data sets, where the sizes of the classes vary greatly. The proposed technique not only integrates adjustments in the classification threshold for the MBO algorithm in order to help deal with the class imbalance, but also uses a bidirectional transformer procedure based on an attention mechanism for self-supervised learning. In addition, the model implements distance correlation as a weight function for the similarity graph-based framework on which the adjusted MBO algorithm operates. The proposed method is validated using six molecular data sets and compared to other related techniques. The computational experiments show that the proposed technique is superior to competing approaches even in the case of a high class imbalance ratio.
- Abstract(参考訳): 1つのクラスサイズが他のクラスよりもはるかに小さい不均衡なクラスサイズを持つデータセットは、病気の診断や薬物発見などの生物学的基盤を持つデータセットを含む多くのアプリケーションで頻繁に発生する。
そのため、様々なサイズのクラスのデータ要素を識別することが極めて重要である。
それでも、多くのデータ分類手順は、未表現のクラスに属する要素を検出するのに失敗するので、不均衡なデータセットではうまく機能しない。
本稿では,Merriman-Bence-Osher(MBO)アプローチと双方向トランスフォーマーを併用したBTDT-MBOアルゴリズムを提案する。
提案手法は,クラス不均衡に対処するために,MBOアルゴリズムの分類しきい値に調整を組み込むだけでなく,自己教師あり学習のための注意機構に基づく双方向トランスフォーマー手法を用いる。
さらに,修正MBOアルゴリズムが動作する類似性グラフベースのフレームワークの重み関数として距離相関を実装した。
提案手法は6つの分子データセットを用いて検証し,他の手法と比較した。
計算実験により,高等級不均衡比の場合においても,提案手法は競合手法よりも優れていることが示された。
関連論文リスト
- A Hybrid Approach for Binary Classification of Imbalanced Data [0.0]
本稿では,データブロック構築,次元減少,アンサンブル学習を併用したハイブリットアプローチHADRを提案する。
我々は、8つの不均衡な公開データセットの性能をリコール、G平均、AUCで評価した。
論文 参考訳(メタデータ) (2022-07-06T15:18:41Z) - Instance-Dependent Label-Noise Learning with Manifold-Regularized
Transition Matrix Estimation [172.81824511381984]
遷移行列 T(x) は、インスタンス依存ノイズ(IDN)の下では特定できない
我々は、T(x) の幾何学について、「より近い2つのインスタンスは、それに対応する遷移行列がより類似している」という仮定を提案する。
本手法は,難解なIDNの下でのラベルノイズ学習において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-06T04:12:01Z) - Ensemble Classifier Design Tuned to Dataset Characteristics for Network
Intrusion Detection [0.0]
データセットのクラスオーバーラップ問題に対処する2つの新しいアルゴリズムが提案されている。
提案手法は二進分類と多進分類の両方で評価される。
論文 参考訳(メタデータ) (2022-05-08T21:06:42Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - IB-GAN: A Unified Approach for Multivariate Time Series Classification
under Class Imbalance [1.854931308524932]
GAN(Generative Adversarial Networks)による非パラメトリックデータ拡張は、有望なソリューションを提供する。
本稿では,データ拡張と分類を1段階のプロセスで結合する新しい手法であるImputation Balanced GAN(IB-GAN)を提案する。
論文 参考訳(メタデータ) (2021-10-14T15:31:16Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Hybrid Ensemble optimized algorithm based on Genetic Programming for
imbalanced data classification [0.0]
本稿では,2種類の不均衡データ分類のための遺伝的プログラミング(GP)に基づくハイブリッドアンサンブルアルゴリズムを提案する。
実験結果から,提案手法をトレーニングセットのサイズで指定したデータセット上での性能は,マイノリティクラス予測の他の次元よりも40%,50%高い精度を示した。
論文 参考訳(メタデータ) (2021-06-02T14:14:38Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - A Method for Handling Multi-class Imbalanced Data by Geometry based
Information Sampling and Class Prioritized Synthetic Data Generation (GICaPS) [15.433936272310952]
本稿では,多ラベル分類問題における不均衡データ処理の問題について考察する。
特徴ベクトル間の幾何学的関係を利用する2つの新しい手法が提案されている。
提案手法の有効性は,汎用的なマルチクラス認識問題を解くことによって解析する。
論文 参考訳(メタデータ) (2020-10-11T04:04:26Z) - Machine Learning Pipeline for Pulsar Star Dataset [58.720142291102135]
この作業は、最も一般的な機械学習(ML)アルゴリズムをまとめるものだ。
目的は、不均衡なデータの集合から得られた結果のレベルの比較を行うことである。
論文 参考訳(メタデータ) (2020-05-03T23:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。