論文の概要: Sub-Clustering for Class Distance Recalculation in Long-Tailed Drug Classification
- arxiv url: http://arxiv.org/abs/2504.04647v1
- Date: Mon, 07 Apr 2025 00:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:09:13.201209
- Title: Sub-Clustering for Class Distance Recalculation in Long-Tailed Drug Classification
- Title(参考訳): 長期薬物分類におけるクラス距離再計算のためのサブクラスタリング
- Authors: Yujia Su, Xinjie Li, Lionel Z. Wang,
- Abstract要約: 薬物化学の分野では、特定の尾のクラスは、その特異な分子構造的特徴により、訓練中に高い識別性を示す。
本稿では,サンプルサイズに基づく従来の静的評価パラダイムから脱却する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 3.015770349327888
- License:
- Abstract: In the real world, long-tailed data distributions are prevalent, making it challenging for models to effectively learn and classify tail classes. However, we discover that in the field of drug chemistry, certain tail classes exhibit higher identifiability during training due to their unique molecular structural features, a finding that significantly contrasts with the conventional understanding that tail classes are generally difficult to identify. Existing imbalance learning methods, such as resampling and cost-sensitive reweighting, overly rely on sample quantity priors, causing models to excessively focus on tail classes at the expense of head class performance. To address this issue, we propose a novel method that breaks away from the traditional static evaluation paradigm based on sample size. Instead, we establish a dynamical inter-class separability metric using feature distances between different classes. Specifically, we employ a sub-clustering contrastive learning approach to thoroughly learn the embedding features of each class, and we dynamically compute the distances between class embeddings to capture the relative positional evolution of samples from different classes in the feature space, thereby rebalancing the weights of the classification loss function. We conducted experiments on multiple existing long-tailed drug datasets and achieved competitive results by improving the accuracy of tail classes without compromising the performance of dominant classes.
- Abstract(参考訳): 現実の世界では、長い尾を持つデータ分布が一般的であり、モデルが尾のクラスを効果的に学習し分類することは困難である。
しかし, 薬品化学の分野では, 特定のテールクラスは, 独特の分子構造的特徴から, トレーニング中に高い識別性を示すことが判明した。
再サンプリングやコスト感受性の再重み付けといった既存の不均衡学習手法は、サンプル量の事前に過度に依存しており、モデルがヘッドクラスのパフォーマンスを犠牲にしてテールクラスに過度にフォーカスする原因となっている。
そこで本研究では,サンプルサイズに基づく従来の静的評価パラダイムから切り離した新しい手法を提案する。
代わりに、異なるクラス間の特徴距離を用いた動的クラス間分離性指標を確立する。
具体的には、各クラスの埋め込み特徴を徹底的に学習するために、サブクラスタリング・コントラスト学習アプローチを採用し、クラス埋め込み間の距離を動的に計算し、特徴空間内の異なるクラスからのサンプルの相対的な位置変化を捉えることにより、分類損失関数の重みを再評価する。
既存の複数の長期薬物データセットの実験を行い、上位クラスの性能を損なうことなく、テールクラスの精度を向上させることで、競争力のある結果を得た。
関連論文リスト
- Learning from Neighbors: Category Extrapolation for Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。
既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。
補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文 参考訳(メタデータ) (2024-10-21T13:06:21Z) - Subclass-balancing Contrastive Learning for Long-tailed Recognition [38.31221755013738]
不均衡なクラス分布を持つロングテール認識は、実践的な機械学習アプリケーションで自然に現れる。
そこで我々は,各ヘッドクラスを複数のサブクラスにクラスタリングする,新しいサブクラスバランス・コントラッシブ・ラーニング・アプローチを提案する。
我々は,長期化ベンチマークデータセットの一覧からSBCLを評価し,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-06-28T05:08:43Z) - Constructing Balance from Imbalance for Long-tailed Image Recognition [50.6210415377178]
多数派(頭)クラスと少数派(尾)クラスの不均衡は、データ駆動のディープニューラルネットワークを著しく歪ませる。
従来の手法では、データ分散、特徴空間、モデル設計の観点からデータ不均衡に対処していた。
ラベル空間を段階的に調整し,ヘッドクラスとテールクラスを分割することで,簡潔なパラダイムを提案する。
提案モデルでは,特徴評価手法も提供し,長期的特徴学習の道を開く。
論文 参考訳(メタデータ) (2022-08-04T10:22:24Z) - Flexible Sampling for Long-tailed Skin Lesion Classification [21.790337883680756]
既存の長い尾の学習方法は、各クラスを等しく扱い、長い尾の分布を再バランスさせる。
本稿では,長鎖皮膚病変分類タスクに対するフレキシブルサンプリングと呼ばれるカリキュラムベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T02:13:56Z) - Long-tail Recognition via Compositional Knowledge Transfer [60.03764547406601]
末尾クラスの少数ショット問題に対処する長尾認識のための新しい戦略を導入する。
我々の目標は、情報に富んだ共通クラスから得られた知識を、意味的に類似しているがデータに富む稀なクラスに伝達することである。
実験結果から,本手法は稀なクラスにおいて,堅牢な共通クラス性能を維持しつつ,大幅な性能向上を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-12-13T15:48:59Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - The Devil is the Classifier: Investigating Long Tail Relation
Classification with Decoupling Analysis [36.298869931803836]
ロングテール関係分類は、ヘッドクラスがトレーニングフェーズを支配しているため、難しい問題である。
そこで本研究では,関係を自動的に集約することで,ソフトウェイトを割り当てる,注意関係ルーティング付きロバストな分類器を提案する。
論文 参考訳(メタデータ) (2020-09-15T12:47:00Z) - Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition
from a Domain Adaptation Perspective [98.70226503904402]
現実世界のオブジェクトの周波数は、しばしば電力法則に従い、長い尾のクラス分布を持つデータセット間のミスマッチを引き起こす。
メタラーニング手法を用いて,クラス条件分布の違いを明示的に推定し,古典的なクラスバランス学習を強化することを提案する。
論文 参考訳(メタデータ) (2020-03-24T11:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。