Fugu-MT 論文翻訳(概要): Graph-Based Bidirectional Transformer Decision Threshold Adjustment Algorithm for Class-Imbalanced Molecular Data

論文の概要: Graph-Based Bidirectional Transformer Decision Threshold Adjustment Algorithm for Class-Imbalanced Molecular Data

arxiv url: http://arxiv.org/abs/2406.06479v3
Date: Wed, 4 Sep 2024 02:57:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-07 02:31:44.678303
Title: Graph-Based Bidirectional Transformer Decision Threshold Adjustment Algorithm for Class-Imbalanced Molecular Data
Title（参考訳）: クラス不均衡分子データに対するグラフベース双方向トランスフォーマー決定閾値調整アルゴリズム
Authors: Nicole Hayes, Ekaterina Merkurjev, Guo-Wei Wei,
Abstract要約: 本稿では,Merriman-Bence-Osher(MBO)アプローチと双方向トランスフォーマーを組み合わせたBTDT-MBOアルゴリズムを提案する。提案手法は,クラス不均衡に対処するために,MBOアルゴリズムの分類しきい値に調整を組み込むだけでなく,自己教師あり学習のための注意機構に基づく双方向トランスフォーマー手法を用いる。提案手法は6つの分子データセットを用いて検証し,他の手法と比較した。
参考スコア（独自算出の注目度）: 1.3108652488669732
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data sets with imbalanced class sizes, where one class size is much smaller than that of others, occur exceedingly often in many applications, including those with biological foundations, such as disease diagnosis and drug discovery. Therefore, it is extremely important to be able to identify data elements of classes of various sizes, as a failure to do so can result in heavy costs. Nonetheless, many data classification procedures do not perform well on imbalanced data sets as they often fail to detect elements belonging to underrepresented classes. In this work, we propose the BTDT-MBO algorithm, incorporating Merriman-Bence-Osher (MBO) approaches and a bidirectional transformer, as well as distance correlation and decision threshold adjustments, for data classification tasks on highly imbalanced molecular data sets, where the sizes of the classes vary greatly. The proposed technique not only integrates adjustments in the classification threshold for the MBO algorithm in order to help deal with the class imbalance, but also uses a bidirectional transformer procedure based on an attention mechanism for self-supervised learning. In addition, the model implements distance correlation as a weight function for the similarity graph-based framework on which the adjusted MBO algorithm operates. The proposed method is validated using six molecular data sets and compared to other related techniques. The computational experiments show that the proposed technique is superior to competing approaches even in the case of a high class imbalance ratio.
Abstract（参考訳）: 1つのクラスサイズが他のクラスよりもはるかに小さい不均衡なクラスサイズを持つデータセットは、病気の診断や薬物発見などの生物学的基盤を持つデータセットを含む多くのアプリケーションで頻繁に発生する。そのため、様々なサイズのクラスのデータ要素を識別することが極めて重要である。それでも、多くのデータ分類手順は、未表現のクラスに属する要素を検出するのに失敗するので、不均衡なデータセットではうまく機能しない。本稿では,Merriman-Bence-Osher(MBO)アプローチと双方向トランスフォーマーを併用したBTDT-MBOアルゴリズムを提案する。提案手法は,クラス不均衡に対処するために,MBOアルゴリズムの分類しきい値に調整を組み込むだけでなく,自己教師あり学習のための注意機構に基づく双方向トランスフォーマー手法を用いる。さらに,修正MBOアルゴリズムが動作する類似性グラフベースのフレームワークの重み関数として距離相関を実装した。提案手法は6つの分子データセットを用いて検証し,他の手法と比較した。計算実験により,高等級不均衡比の場合においても,提案手法は競合手法よりも優れていることが示された。

関連論文リスト

Universal Transformation of One-Class Classifiers for Unsupervised Anomaly Detection [51.73001988341294]
異常検出は通常、一級分類問題として定式化される。本稿では,任意の1クラス分類器に基づく異常検出器を,完全に教師なしの手法に変換するデータセット折り畳み方式を提案する。
論文参考訳（メタデータ） (2026-02-13T16:54:12Z)
Sharpness-aware Dynamic Anchor Selection for Generalized Category Discovery [61.694524826522205]
既知のクラスのラベル付きデータを考えると、GCDは既知のクラスと未知のクラスの両方を含むラベルなしデータをクラスタ化することを目的としている。大規模な事前学習モデルでは、特定の視覚的パターンが好まれ、ラベルのないデータに対して刺激的な相関を符号化する。 LSP(Los Sharpness Penalty)とDAS(Dynamic Anchor Selection)の2つのモジュールを含む新しい手法を提案する。
論文参考訳（メタデータ） (2025-12-15T02:24:06Z)
Intrinsic Dimensionality as a Model-Free Measure of Class Imbalance [8.819673391477036]
分類タスクの不均衡は、クラス間の例の濃度によって一般的に定量化される。これは、冗長な例の存在と、授業の学習困難における固有の相違を無視している。本稿では,データ固有次元性(ID)を計算容易かつモデルフリーな不均衡尺度として用いることを提案する。
論文参考訳（メタデータ） (2025-11-13T16:41:37Z)
Unbiased Max-Min Embedding Classification for Transductive Few-Shot Learning: Clustering and Classification Are All You Need [83.10178754323955]
わずかなショットラーニングにより、モデルがいくつかのラベル付き例から一般化できる。本稿では,Unbiased Max-Min Embedding Classification (UMMEC)法を提案する。本手法は最小ラベル付きデータを用いて分類性能を著しく向上させ, 注釈付きLの最先端化を推し進める。
論文参考訳（メタデータ） (2025-03-28T07:23:07Z)
A Hybrid Approach for Binary Classification of Imbalanced Data [0.0]
本稿では,データブロック構築,次元減少,アンサンブル学習を併用したハイブリットアプローチHADRを提案する。我々は、8つの不均衡な公開データセットの性能をリコール、G平均、AUCで評価した。
論文参考訳（メタデータ） (2022-07-06T15:18:41Z)
Instance-Dependent Label-Noise Learning with Manifold-Regularized Transition Matrix Estimation [172.81824511381984]
遷移行列 T(x) は、インスタンス依存ノイズ(IDN)の下では特定できない我々は、T(x) の幾何学について、「より近い2つのインスタンスは、それに対応する遷移行列がより類似している」という仮定を提案する。本手法は,難解なIDNの下でのラベルノイズ学習において,最先端の手法よりも優れている。
論文参考訳（メタデータ） (2022-06-06T04:12:01Z)
Ensemble Classifier Design Tuned to Dataset Characteristics for Network Intrusion Detection [0.0]
データセットのクラスオーバーラップ問題に対処する2つの新しいアルゴリズムが提案されている。提案手法は二進分類と多進分類の両方で評価される。
論文参考訳（メタデータ） (2022-05-08T21:06:42Z)
CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文参考訳（メタデータ） (2022-02-11T13:49:51Z)
IB-GAN: A Unified Approach for Multivariate Time Series Classification under Class Imbalance [1.854931308524932]
GAN(Generative Adversarial Networks)による非パラメトリックデータ拡張は、有望なソリューションを提供する。本稿では,データ拡張と分類を1段階のプロセスで結合する新しい手法であるImputation Balanced GAN(IB-GAN)を提案する。
論文参考訳（メタデータ） (2021-10-14T15:31:16Z)
Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文参考訳（メタデータ） (2021-06-11T01:36:08Z)
Hybrid Ensemble optimized algorithm based on Genetic Programming for imbalanced data classification [0.0]
本稿では,2種類の不均衡データ分類のための遺伝的プログラミング(GP)に基づくハイブリッドアンサンブルアルゴリズムを提案する。実験結果から,提案手法をトレーニングセットのサイズで指定したデータセット上での性能は,マイノリティクラス予測の他の次元よりも40%,50%高い精度を示した。
論文参考訳（メタデータ） (2021-06-02T14:14:38Z)
Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。 ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文参考訳（メタデータ） (2020-12-13T03:41:52Z)
Theoretical Insights Into Multiclass Classification: A High-dimensional Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。分析の結果,分類精度は分布に依存していることがわかった。得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文参考訳（メタデータ） (2020-11-16T05:17:29Z)
A Method for Handling Multi-class Imbalanced Data by Geometry based Information Sampling and Class Prioritized Synthetic Data Generation (GICaPS) [15.433936272310952]
本稿では,多ラベル分類問題における不均衡データ処理の問題について考察する。特徴ベクトル間の幾何学的関係を利用する2つの新しい手法が提案されている。提案手法の有効性は,汎用的なマルチクラス認識問題を解くことによって解析する。
論文参考訳（メタデータ） (2020-10-11T04:04:26Z)
Machine Learning Pipeline for Pulsar Star Dataset [58.720142291102135]
この作業は、最も一般的な機械学習(ML)アルゴリズムをまとめるものだ。目的は、不均衡なデータの集合から得られた結果のレベルの比較を行うことである。
論文参考訳（メタデータ） (2020-05-03T23:35:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。