論文の概要: Agentomics-ML: Autonomous Machine Learning Experimentation Agent for Genomic and Transcriptomic Data
- arxiv url: http://arxiv.org/abs/2506.05542v1
- Date: Thu, 05 Jun 2025 19:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.2098
- Title: Agentomics-ML: Autonomous Machine Learning Experimentation Agent for Genomic and Transcriptomic Data
- Title(参考訳): Agentomics-ML:ゲノミクスとトランスクリプトミクスデータのための自律機械学習実験エージェント
- Authors: Vlastimil Martinek, Andrea Gariboldi, Dimosthenis Tzimotoudis, Aitor Alberdi Escudero, Edward Blake, David Cechak, Luke Cassar, Alessandro Balestrucci, Panagiotis Alexiou,
- Abstract要約: 本稿では,完全自律型エージェントベースシステムであるAgenomics-MLを紹介した。
本稿では,Agenomics-MLが既存のエージェントベースの手法よりも,一般化と成功率の両面で優れていることを示す。
- 参考スコア(独自算出の注目度): 33.7054351451505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The adoption of machine learning (ML) and deep learning methods has revolutionized molecular medicine by driving breakthroughs in genomics, transcriptomics, drug discovery, and biological systems modeling. The increasing quantity, multimodality, and heterogeneity of biological datasets demand automated methods that can produce generalizable predictive models. Recent developments in large language model-based agents have shown promise for automating end-to-end ML experimentation on structured benchmarks. However, when applied to heterogeneous computational biology datasets, these methods struggle with generalization and success rates. Here, we introduce Agentomics-ML, a fully autonomous agent-based system designed to produce a classification model and the necessary files for reproducible training and inference. Our method follows predefined steps of an ML experimentation process, repeatedly interacting with the file system through Bash to complete individual steps. Once an ML model is produced, training and validation metrics provide scalar feedback to a reflection step to identify issues such as overfitting. This step then creates verbal feedback for future iterations, suggesting adjustments to steps such as data representation, model architecture, and hyperparameter choices. We have evaluated Agentomics-ML on several established genomic and transcriptomic benchmark datasets and show that it outperforms existing state-of-the-art agent-based methods in both generalization and success rates. While state-of-the-art models built by domain experts still lead in absolute performance on the majority of the computational biology datasets used in this work, Agentomics-ML narrows the gap for fully autonomous systems and achieves state-of-the-art performance on one of the used benchmark datasets. The code is available at https://github.com/BioGeMT/Agentomics-ML.
- Abstract(参考訳): 機械学習(ML)とディープラーニング手法の採用は、ゲノム学、転写学、薬物発見、生物学的システムモデリングにおけるブレークスルーを駆り立てることで、分子医学に革命をもたらした。
生物データセットの量、多様性、不均一性の増加は、一般化可能な予測モデルを生成する自動化手法を必要とする。
大規模言語モデルに基づくエージェントの最近の開発は、構造化ベンチマーク上でエンドツーエンドのML実験を自動化することを約束している。
しかし、異種計算生物学データセットに適用した場合、これらの手法は一般化と成功率に苦慮する。
本稿では,完全自律型エージェントベースシステムであるAgenomics-MLについて紹介する。
提案手法は,ML実験プロセスの事前定義されたステップに従って,Bashを通じてファイルシステムと繰り返し対話し,個々のステップを完了させる。
MLモデルが作成されると、トレーニングと検証のメトリクスは、オーバーフィッティングなどの問題を特定するために、リフレクションステップにスカラーフィードバックを提供する。
このステップは、将来のイテレーションに対する言葉によるフィードバックを生成し、データ表現やモデルアーキテクチャ、ハイパーパラメータの選択といったステップへの調整を提案する。
我々はAgenomics-MLをいくつかの確立されたゲノムおよび転写学的ベンチマークデータセットで評価し、既存の最先端エージェントベースの手法を一般化と成功率の両方で上回っていることを示す。
ドメインの専門家が構築した最先端のモデルは、この研究で使用されている計算生物学データセットの大部分で依然として絶対的なパフォーマンスを保っているが、Agentomics-MLは完全な自律システムのギャップを狭め、使用済みベンチマークデータセットの1つで最先端のパフォーマンスを達成する。
コードはhttps://github.com/BioGeMT/Agentomics-MLで公開されている。
関連論文リスト
- Auto-ADMET: An Effective and Interpretable AutoML Method for Chemical ADMET Property Prediction [0.0]
本研究は、化学ADMET特性予測のための解釈可能な進化型AutoML法であるAuto-ADMETを紹介する。
3つの代替手法に対して同等またはより良い予測性能を達成する。
ベイジアンネットワークモデルを用いたAuto-ADMETの進化過程は、探索手順の整形とAutoMLのパフォーマンスの原因の解釈を補助する。
論文 参考訳(メタデータ) (2025-02-22T22:54:08Z) - Artificial Intelligence in Spectroscopy: Advancing Chemistry from Prediction to Generation and Beyond [38.32974480709081]
機械学習(ML)と人工知能(AI)の急速な出現は、化学に大きな変革をもたらした。
分光・分光データへのこれらの手法の適用は、分光機械学習(SpectraML)と呼ばれるが、いまだに研究が進んでいない。
我々はSpectraMLの統一的なレビューを行い、フォワードタスクと逆タスクの両方に対する最先端のアプローチを体系的に検証する。
論文 参考訳(メタデータ) (2025-02-14T04:07:25Z) - Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。
逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。
アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-12-22T15:16:44Z) - CellAgent: An LLM-driven Multi-Agent Framework for Automated Single-cell Data Analysis [35.61361183175167]
単細胞RNAシークエンシング (scRNA-seq) データ解析は生物学的研究に不可欠である。
しかし、望ましい結果を得るために様々なツールを手動で操作することは、研究者にとって労働集約的である。
本稿では,ScRNA-seqデータ解析タスクの自動処理と実行のためのLLM駆動型マルチエージェントフレームワークであるCellAgentを紹介する。
論文 参考訳(メタデータ) (2024-07-13T09:14:50Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - SBMLtoODEjax: Efficient Simulation and Optimization of Biological
Network Models in JAX [19.55237447763145]
本稿では,SBMLモデルとMLサポートパイプラインをシームレスに統合する軽量ライブラリであるSBMLtoODEjaxを紹介する。
JAXの能力を利用して効率的な並列シミュレーションと最適化を行い、生物学的ネットワーク分析の研究を加速することを目的としています。
論文 参考訳(メタデータ) (2023-07-17T12:47:33Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - NASirt: AutoML based learning with instance-level complexity information [0.0]
我々は、スペクトルデータセットの高精度CNNアーキテクチャを見つけるAutoML手法であるNASirtを提案する。
我々の手法は、ほとんどの場合、ベンチマークよりも優れた性能を示し、平均精度は97.40%に達する。
論文 参考訳(メタデータ) (2020-08-26T22:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。