論文の概要: Automated Statistical and Machine Learning Platform for Biological Research
- arxiv url: http://arxiv.org/abs/2511.21770v1
- Date: Tue, 25 Nov 2025 19:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.22842
- Title: Automated Statistical and Machine Learning Platform for Biological Research
- Title(参考訳): 生物研究のための統計的・機械学習プラットフォーム
- Authors: Luke Rimmo Lego, Samantha Gauthier, Denver Jn. Baptiste,
- Abstract要約: 本稿では,古典的統計手法とランダムフォレスト分類を組み合わせた総合的データ分析のための統合プラットフォームを提案する。
我々の方法論は、従来の統計ソフトウェア、現代の機械学習フレームワーク、生物学のギャップに対処する。
初期試験プロトコルは、様々な化学データセットの分類精度を評価するように設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Research increasingly relies on computational methods to analyze experimental data and predict molecular properties. Current approaches often require researchers to use a variety of tools for statistical analysis and machine learning, creating workflow inefficiencies. We present an integrated platform that combines classical statistical methods with Random Forest classification for comprehensive data analysis that can be used in the biological sciences. The platform implements automated hyperparameter optimization, feature importance analysis, and a suite of statistical tests including t tests, ANOVA, and Pearson correlation analysis. Our methodology addresses the gap between traditional statistical software, modern machine learning frameworks and biology, by providing a unified interface accessible to researchers without extensive programming experience. The system achieves this through automatic data preprocessing, categorical encoding, and adaptive model configuration based on dataset characteristics. Initial testing protocols are designed to evaluate classification accuracy across diverse chemical datasets with varying feature distributions. This work demonstrates that integrating statistical rigor with machine learning interpretability can accelerate biological discovery workflows while maintaining methodological soundness. The platform's modular architecture enables future extensions to additional machine learning algorithms and statistical procedures relevant to bioinformatics.
- Abstract(参考訳): 研究は、実験データを分析し、分子特性を予測するための計算方法にますます依存している。
現在のアプローチでは、統計分析や機械学習にさまざまなツールを使用し、ワークフローの非効率性を作成する必要があることが多い。
本稿では,従来の統計手法とランダムフォレスト分類を組み合わせた総合的データ分析プラットフォームについて述べる。
このプラットフォームは、自動ハイパーパラメータ最適化、特徴重要度分析、tテスト、ANOVA、ピアソン相関分析を含む一連の統計テストを実装している。
提案手法は, 従来の統計ソフトウェア, 現代の機械学習フレームワーク, 生物学のギャップを, 広範なプログラミング経験のない研究者が利用できる統一インターフェースを提供することによって解決する。
本システムは、データセット特性に基づいて、自動データ前処理、分類エンコーディング、適応モデル構成によりこれを実現する。
初期試験プロトコルは、様々な特徴分布を持つ多様な化学データセットの分類精度を評価するように設計されている。
この研究は、統計的厳密さと機械学習の解釈可能性を統合することで、方法論的健全性を維持しながら生物学的発見ワークフローを加速できることを実証する。
このプラットフォームのモジュラーアーキテクチャは、将来の機械学習アルゴリズムとバイオインフォマティクスに関連する統計手順の拡張を可能にする。
関連論文リスト
- Meta-Imputation Balanced (MIB): An Ensemble Approach for Handling Missing Data in Biomedical Machine Learning [0.41292255339309664]
本稿では,複数のベースインプタの出力を組み合わさって,不足値をより正確に予測するメタインプット手法を提案する。
私たちの研究は、計算処理におけるアンサンブル学習の可能性を強調し、より堅牢でモジュール化され、解釈可能な前処理パイプラインの道を開く。
論文 参考訳(メタデータ) (2025-09-03T13:49:54Z) - PyTDC: A multimodal machine learning training, evaluation, and inference platform for biomedical foundation models [59.17570021208177]
PyTDCは、マルチモーダルな生物学的AIモデルのための合理化されたトレーニング、評価、推論ソフトウェアを提供する機械学習プラットフォームである。
本稿では、PyTDCのアーキテクチャの構成要素と、我々の知る限り、導入したシングルセルドラッグターゲットMLタスクにおける第一種ケーススタディについて論じる。
論文 参考訳(メタデータ) (2025-05-08T18:15:38Z) - Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Towards the Best Solution for Complex System Reliability: Can Statistics Outperform Machine Learning? [39.58317527488534]
本研究は,信頼性評価を改善するための古典的統計手法と機械学習手法の有効性を比較した。
従来の統計アルゴリズムは、ブラックボックスの機械学習手法よりも正確で解釈可能な結果が得られることを実証することを目的としている。
論文 参考訳(メタデータ) (2024-10-05T17:31:18Z) - Analyses and Concerns in Precision Medicine: A Statistical Perspective [0.06526824510982801]
本稿では,精密医療における統計的分析の重要性について考察する。
予測モデリング、機械学習アルゴリズム、データ可視化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-01-12T21:33:17Z) - A Data-Driven Method for Automated Data Superposition with Applications
in Soft Matter Science [0.0]
我々は任意の座標変換で実験データを重畳するデータ駆動非パラメトリック法を開発した。
本手法は, 材料分類, 設計, 発見などの応用を通知する, 解釈可能なデータ駆動モデルを生成する。
論文 参考訳(メタデータ) (2022-04-20T14:58:04Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z) - Data-Driven Logistic Regression Ensembles With Applications in Genomics [0.0]
本稿では,正規化とアンサンブル技術を融合した高次元バイナリ分類手法を提案する。
医学ゲノミクスの応用において,本手法は競合する手法によって見落とされた重要なバイオマーカーを同定する。
論文 参考訳(メタデータ) (2021-02-17T05:57:26Z) - Using Data Assimilation to Train a Hybrid Forecast System that Combines
Machine-Learning and Knowledge-Based Components [52.77024349608834]
利用可能なデータがノイズの多い部分測定の場合,カオスダイナミクスシステムのデータ支援予測の問題を検討する。
動的システムの状態の部分的測定を用いることで、不完全な知識ベースモデルによる予測を改善するために機械学習モデルを訓練できることを示す。
論文 参考訳(メタデータ) (2021-02-15T19:56:48Z) - Estimating Structural Target Functions using Machine Learning and
Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。
このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。
我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文 参考訳(メタデータ) (2020-08-14T16:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。