論文の概要: Automating Exploratory Proteomics Research via Language Models
- arxiv url: http://arxiv.org/abs/2411.03743v1
- Date: Wed, 06 Nov 2024 08:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:22:52.096663
- Title: Automating Exploratory Proteomics Research via Language Models
- Title(参考訳): 言語モデルによる探索プロテオミクス研究の自動化
- Authors: Ning Ding, Shang Qu, Linhai Xie, Yifei Li, Zaoqu Liu, Kaiyan Zhang, Yibai Xiong, Yuxin Zuo, Zhangren Chen, Ermo Hua, Xingtai Lv, Youbang Sun, Yang Li, Dong Li, Fuchu He, Bowen Zhou,
- Abstract要約: PROTEUSは、生データから科学的発見を行うための完全に自動化されたシステムである。
人間の介入なしに研究目的、分析結果、新しい生物学的仮説を包括的に作成する。
- 参考スコア(独自算出の注目度): 22.302672656499315
- License:
- Abstract: With the development of artificial intelligence, its contribution to science is evolving from simulating a complex problem to automating entire research processes and producing novel discoveries. Achieving this advancement requires both specialized general models grounded in real-world scientific data and iterative, exploratory frameworks that mirror human scientific methodologies. In this paper, we present PROTEUS, a fully automated system for scientific discovery from raw proteomics data. PROTEUS uses large language models (LLMs) to perform hierarchical planning, execute specialized bioinformatics tools, and iteratively refine analysis workflows to generate high-quality scientific hypotheses. The system takes proteomics datasets as input and produces a comprehensive set of research objectives, analysis results, and novel biological hypotheses without human intervention. We evaluated PROTEUS on 12 proteomics datasets collected from various biological samples (e.g. immune cells, tumors) and different sample types (single-cell and bulk), generating 191 scientific hypotheses. These were assessed using both automatic LLM-based scoring on 5 metrics and detailed reviews from human experts. Results demonstrate that PROTEUS consistently produces reliable, logically coherent results that align well with existing literature while also proposing novel, evaluable hypotheses. The system's flexible architecture facilitates seamless integration of diverse analysis tools and adaptation to different proteomics data types. By automating complex proteomics analysis workflows and hypothesis generation, PROTEUS has the potential to considerably accelerate the pace of scientific discovery in proteomics research, enabling researchers to efficiently explore large-scale datasets and uncover biological insights.
- Abstract(参考訳): 人工知能の発展に伴い、その科学への貢献は、複雑な問題をシミュレートするから、研究プロセス全体を自動化し、新しい発見を生み出すまで進化している。
この進歩を達成するためには、現実世界の科学データに基づく専門的な一般的なモデルと、人間の科学的方法論を反映する反復的な探索的なフレームワークの両方が必要である。
本稿では,プロテオミクスデータから科学的発見を行うための完全自動化システム PROTEUS を提案する。
PROTEUSは大規模言語モデル(LLM)を用いて階層的計画を行い、特殊なバイオインフォマティクスツールを実行し、分析ワークフローを反復的に洗練し、高品質な科学的仮説を生成する。
このシステムは、プロテオミクスデータセットを入力として、人間の介入なしに研究目的、分析結果、新しい生物学的仮説を包括的に生成する。
各種生体試料(例えば免疫細胞,腫瘍)および各種試料(単細胞,バルク)から採取した12種類のプロテオミクスデータセットを用いてProteusを評価し,191の科学的仮説を導出した。
これらの評価は、自動LLMによる5つの指標のスコアと、人間の専門家による詳細なレビューの両方を用いて行われた。
結果から, ProTEUS は既存の文献と整合する信頼性, 論理的整合性のある結果を一貫して生成し, 新規で評価可能な仮説も提案した。
システムの柔軟なアーキテクチャは、多様な分析ツールのシームレスな統合と、さまざまなプロテオミクスデータタイプへの適応を促進する。
複雑なプロテオミクス分析ワークフローと仮説生成の自動化により、ProteUSはプロテオミクス研究における科学的発見のペースを大幅に加速する可能性があり、研究者は大規模データセットを効率的に探索し、生物学的洞察を明らかにすることができる。
関連論文リスト
- CellAgent: An LLM-driven Multi-Agent Framework for Automated Single-cell Data Analysis [35.61361183175167]
単細胞RNAシークエンシング (scRNA-seq) データ解析は生物学的研究に不可欠である。
しかし、望ましい結果を得るために様々なツールを手動で操作することは、研究者にとって労働集約的である。
本稿では,ScRNA-seqデータ解析タスクの自動処理と実行のためのLLM駆動型マルチエージェントフレームワークであるCellAgentを紹介する。
論文 参考訳(メタデータ) (2024-07-13T09:14:50Z) - Large Language Models as Biomedical Hypothesis Generators: A Comprehensive Evaluation [15.495976478018264]
大規模言語モデル(LLM)は、知識相互作用に革命をもたらす有望なツールとして登場した。
バイオメディカル文献から背景と仮説のペアのデータセットを構築し、トレーニング、観察、および見えないテストセットに分割する。
最上位モデルの仮説生成能力を、ゼロショット、少数ショット、微調整設定で評価する。
論文 参考訳(メタデータ) (2024-07-12T02:55:13Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - A Guide to Tracking Phylogenies in Parallel and Distributed Agent-based Evolution Models [0.0]
エージェントベースモデルを用いたサイリコ研究では、シミュレートされたエージェント間の祖先関係の高品質な記録を収集する機会を提供する。
現存する研究は通常、系統を直接追跡し、進化史の正確な系統学的な記録を生み出している。
ポストホック推定は、生物情報学者が生物間の遺伝的類似性を評価することによって植物学を構築する方法に似ている。
論文 参考訳(メタデータ) (2024-05-16T15:27:51Z) - CRISPR-GPT: An LLM Agent for Automated Design of Gene-Editing Experiments [51.41735920759667]
大規模言語モデル(LLM)は様々なタスクにおいて有望であるが、しばしば特定の知識が欠如し、生物学的設計の問題を正確に解くのに苦労する。
本研究では,CRISPRに基づく遺伝子編集実験の設計プロセスを自動化するために,ドメイン知識と外部ツールを付加したLCMエージェントであるCRISPR-GPTを紹介する。
論文 参考訳(メタデータ) (2024-04-27T22:59:17Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Toward a Team of AI-made Scientists for Scientific Discovery from Gene
Expression Data [9.767546641019862]
我々は、科学的な発見パイプラインを合理化するために設計された新しいフレームワーク、AIマニュフェストチーム(TAIS)を紹介する。
TAISは、プロジェクトマネージャ、データエンジニア、ドメインエキスパートを含むシミュレートされた役割で構成され、それぞれがLLM(Large Language Model)によって表現される。
これらの役割は、典型的にはデータ科学者が行うタスクを再現するために協力し、疾患予測遺伝子を特定することに焦点を当てている。
論文 参考訳(メタデータ) (2024-02-15T06:30:12Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。