論文の概要: Improving Omics-Based Classification: The Role of Feature Selection and Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2505.03387v1
- Date: Tue, 06 May 2025 10:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.325169
- Title: Improving Omics-Based Classification: The Role of Feature Selection and Synthetic Data Generation
- Title(参考訳): Omicsに基づく分類の改善:特徴選択と合成データ生成の役割
- Authors: Diego Perazzolo, Pietro Fanton, Ilaria Barison, Marny Fedrigo, Annalisa Angelini, Chiara Castellani, Enrico Grisan,
- Abstract要約: 本研究では,特徴選択とデータ拡張技術を統合した機械学習に基づく分類フレームワークを提案する。
提案したパイプラインは、小さなデータセット上で、相互に検証されたパーフォマンスが得られることを示す。
- 参考スコア(独自算出の注目度): 0.18846515534317262
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Given the increasing complexity of omics datasets, a key challenge is not only improving classification performance but also enhancing the transparency and reliability of model decisions. Effective model performance and feature selection are fundamental for explainability and reliability. In many cases, high dimensional omics datasets suffer from limited number of samples due to clinical constraints, patient conditions, phenotypes rarity and others conditions. Current omics based classification models often suffer from narrow interpretability, making it difficult to discern meaningful insights where trust and reproducibility are critical. This study presents a machine learning based classification framework that integrates feature selection with data augmentation techniques to achieve high standard classification accuracy while ensuring better interpretability. Using the publicly available dataset (E MTAB 8026), we explore a bootstrap analysis in six binary classification scenarios to evaluate the proposed model's behaviour. We show that the proposed pipeline yields cross validated perfomance on small dataset that is conserved when the trained classifier is applied to a larger test set. Our findings emphasize the fundamental balance between accuracy and feature selection, highlighting the positive effect of introducing synthetic data for better generalization, even in scenarios with very limited samples availability.
- Abstract(参考訳): オミクスデータセットの複雑さが増大していることを考えると、重要な課題は分類性能の改善だけでなく、モデル決定の透明性と信頼性の向上である。
効果的なモデル性能と特徴選択は、説明可能性と信頼性に不可欠である。
多くの場合、高次元オミクスデータセットは臨床的制約、患者条件、表現型、その他の条件によって限られた数のサンプルに悩まされる。
現在のオミクスに基づく分類モデルは、しばしば狭義の解釈可能性に悩まされるため、信頼と再現性が重要となる有意義な洞察を識別することは困難である。
本研究では,データ拡張技術と特徴選択を統合した機械学習に基づく分類フレームワークを提案する。
公開されているデータセット(E MTAB 8026)を用いて、6つのバイナリ分類シナリオでブートストラップ解析を行い、提案モデルの振る舞いを評価する。
提案したパイプラインは、トレーニングされた分類器がより大きなテストセットに適用された際に保存される小さなデータセット上で、クロス検証されたパーフォマンスが得られることを示す。
本研究は, 精度と特徴選択の基本的なバランスを強調し, 極めて限定的なサンプル利用例においても, より汎用性の高い合成データの導入による肯定的な効果を強調した。
関連論文リスト
- Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - CALICO: Confident Active Learning with Integrated Calibration [11.978551396144532]
トレーニングプロセス中にサンプル選択に使用される信頼度を自己校正するALフレームワークを提案する。
ラベル付きサンプルが少ないソフトマックス分類器と比較して,分類性能が向上した。
論文 参考訳(メタデータ) (2024-07-02T15:05:19Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Stabilizing and Improving Federated Learning with Non-IID Data and
Client Dropout [15.569507252445144]
ラベル分布スキューによるデータヘテロジェニーティは、フェデレート学習におけるモデル性能を制限する重要な障害であることが示されている。
クロスエントロピー損失を計算するための事前校正ソフトマックス関数を導入することで、シンプルで効果的なフレームワークを提案する。
非IIDデータとクライアントドロップアウトの存在下で、既存のベースラインよりも優れたモデル性能を示す。
論文 参考訳(メタデータ) (2023-03-11T05:17:59Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Utilizing stability criteria in choosing feature selection methods
yields reproducible results in microbiome data [0.9345224141195311]
一般的なモデル予測指標MSEの性能と4つの広く使われている特徴選択法の評価における基準安定度の比較を行った。
MSEよりも安定度が望ましい特徴選択基準であると結論付け,特徴選択法の性能を定量的に評価する。
論文 参考訳(メタデータ) (2020-11-30T22:23:26Z) - RENT -- Repeated Elastic Net Technique for Feature Selection [0.46180371154032895]
特徴選択のための繰り返し弾性ネット技術(RENT)を提案する。
RENTは、弾力性のあるネット正規化を備えた一般化線形モデルのアンサンブルを使用しており、それぞれがトレーニングデータの異なるサブセットに基づいて訓練されている。
RENTは、トレーニング中に予測が難しいデータ内のオブジェクトの識別に関するモデル解釈のための貴重な情報を提供する。
論文 参考訳(メタデータ) (2020-09-27T07:55:52Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。