論文の概要: Contextualizing biological perturbation experiments through language
- arxiv url: http://arxiv.org/abs/2502.21290v1
- Date: Fri, 28 Feb 2025 18:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 16:38:46.113042
- Title: Contextualizing biological perturbation experiments through language
- Title(参考訳): 言語による生物学的摂動実験の文脈化
- Authors: Menghua Wu, Russell Littman, Jacob Levine, Lin Qiu, Tommaso Biancalani, David Richmond, Jan-Christian Huetter,
- Abstract要約: PerturbQAは摂動実験に対する構造化推論のベンチマークである。
我々は、摂動をモデル化するための最先端の機械学習と統計的アプローチを評価する。
本稿では,サマー(SUMMarize,retrievE, answeR),シンプルなドメインインフォームドLLMフレームワークを紹介する。
- 参考スコア(独自算出の注目度): 3.704686482174365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-content perturbation experiments allow scientists to probe biomolecular systems at unprecedented resolution, but experimental and analysis costs pose significant barriers to widespread adoption. Machine learning has the potential to guide efficient exploration of the perturbation space and extract novel insights from these data. However, current approaches neglect the semantic richness of the relevant biology, and their objectives are misaligned with downstream biological analyses. In this paper, we hypothesize that large language models (LLMs) present a natural medium for representing complex biological relationships and rationalizing experimental outcomes. We propose PerturbQA, a benchmark for structured reasoning over perturbation experiments. Unlike current benchmarks that primarily interrogate existing knowledge, PerturbQA is inspired by open problems in perturbation modeling: prediction of differential expression and change of direction for unseen perturbations, and gene set enrichment. We evaluate state-of-the-art machine learning and statistical approaches for modeling perturbations, as well as standard LLM reasoning strategies, and we find that current methods perform poorly on PerturbQA. As a proof of feasibility, we introduce Summer (SUMMarize, retrievE, and answeR, a simple, domain-informed LLM framework that matches or exceeds the current state-of-the-art. Our code and data are publicly available at https://github.com/genentech/PerturbQA.
- Abstract(参考訳): 高濃度摂動実験により、科学者は前例のない解像度で生体分子系を探索できるが、実験と分析のコストは広く採用される上で大きな障壁となる。
機械学習は摂動空間を効率的に探索し、これらのデータから新しい洞察を抽出する可能性を秘めている。
しかし、現在のアプローチでは、関連する生物学の意味的豊かさは無視されており、その目的は下流の生物学的分析と不一致である。
本稿では,大規模言語モデル(LLM)が,複雑な生物学的関係を表現し,実験結果を合理化するための自然な媒体である,という仮説を立てる。
本稿では,摂動実験に対する構造化推論のベンチマークであるPerturbQAを提案する。
既存の知識を主に疑問視する現在のベンチマークとは異なり、PerturbQAは摂動モデリングのオープンな問題にインスパイアされている。
我々は,現在の手法がPerturbQAでは不十分であることを示すとともに,現状の機械学習と統計手法による摂動のモデル化,および標準LLM推論戦略の評価を行った。
実現可能性の証明として,サマー (SUMMarize, retrievE, answeR) を紹介する。
私たちのコードとデータはhttps://github.com/genentech/PerturbQA.comで公開されています。
関連論文リスト
- In-silico biological discovery with large perturbation models [46.388631244976885]
本稿では,摂動,読み出し,コンテキストをアンタングル次元として表現することで摂動実験を統合するディープラーニングモデルであるLarge Perturbation Model(LPM)を提案する。
LPMは、未確認実験の摂動後のトランスクリプトームを予測することを含む、様々な生物学的発見タスクで既存の方法より優れている。
論文 参考訳(メタデータ) (2025-03-30T17:41:25Z) - Large Language Models for Zero-shot Inference of Causal Structures in Biology [4.650342334505084]
本稿では,生物学における因果関係のゼロショット推論のための大規模言語モデル(LLM)を評価する枠組みを提案する。
実世界の介入データを用いて, LLMから得られた因果関係を系統的に評価した。
以上の結果から, 比較的小さなLLMでも生物学的システムにおける因果構造の意義を捉えることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-03-06T11:43:30Z) - BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning [49.487327661584686]
実際の研究から5.1Kの複雑な経路問題を持つデータセットであるBioMazeを紹介する。
CoT法やグラフ拡張推論法などの手法の評価は,LLMが経路推論に苦慮していることを示している。
そこで本稿では,インタラクティブなサブグラフベースのナビゲーションにより推論を強化するLLMエージェントであるPathSeekerを提案する。
論文 参考訳(メタデータ) (2025-02-23T17:38:10Z) - Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Progress and Opportunities of Foundation Models in Bioinformatics [77.74411726471439]
基礎モデル(FM)は、特に深層学習の領域において、計算生物学の新しい時代に定着した。
我々の焦点は、特定の生物学的問題にFMを応用することであり、研究ニーズに適切なFMを選択するために研究コミュニティを指導することを目的としています。
データノイズ、モデル説明可能性、潜在的なバイアスなど、生物学においてFMが直面する課題と限界を分析します。
論文 参考訳(メタデータ) (2024-02-06T02:29:17Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - The worst of both worlds: A comparative analysis of errors in learning
from data in psychology and machine learning [17.336655978572583]
機械学習(ML)が誤診や複製の危機に直面しているという最近の懸念は、ML研究で公表された主張の一部が対面価値で評価できないことを示唆している。
教師付きMLにおける研究の関心事は、実験科学における複製危機と共通している。
論文 参考訳(メタデータ) (2022-03-12T18:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。