論文の概要: Contextualizing biological perturbation experiments through language
- arxiv url: http://arxiv.org/abs/2502.21290v1
- Date: Fri, 28 Feb 2025 18:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:54.165192
- Title: Contextualizing biological perturbation experiments through language
- Title(参考訳): 言語による生物学的摂動実験の文脈化
- Authors: Menghua Wu, Russell Littman, Jacob Levine, Lin Qiu, Tommaso Biancalani, David Richmond, Jan-Christian Huetter,
- Abstract要約: PerturbQAは摂動実験に対する構造化推論のベンチマークである。
我々は、摂動をモデル化するための最先端の機械学習と統計的アプローチを評価する。
本稿では,サマー(SUMMarize,retrievE, answeR),シンプルなドメインインフォームドLLMフレームワークを紹介する。
- 参考スコア(独自算出の注目度): 3.704686482174365
- License:
- Abstract: High-content perturbation experiments allow scientists to probe biomolecular systems at unprecedented resolution, but experimental and analysis costs pose significant barriers to widespread adoption. Machine learning has the potential to guide efficient exploration of the perturbation space and extract novel insights from these data. However, current approaches neglect the semantic richness of the relevant biology, and their objectives are misaligned with downstream biological analyses. In this paper, we hypothesize that large language models (LLMs) present a natural medium for representing complex biological relationships and rationalizing experimental outcomes. We propose PerturbQA, a benchmark for structured reasoning over perturbation experiments. Unlike current benchmarks that primarily interrogate existing knowledge, PerturbQA is inspired by open problems in perturbation modeling: prediction of differential expression and change of direction for unseen perturbations, and gene set enrichment. We evaluate state-of-the-art machine learning and statistical approaches for modeling perturbations, as well as standard LLM reasoning strategies, and we find that current methods perform poorly on PerturbQA. As a proof of feasibility, we introduce Summer (SUMMarize, retrievE, and answeR, a simple, domain-informed LLM framework that matches or exceeds the current state-of-the-art. Our code and data are publicly available at https://github.com/genentech/PerturbQA.
- Abstract(参考訳): 高濃度摂動実験により、科学者は前例のない解像度で生体分子系を探索できるが、実験と分析のコストは広く採用される上で大きな障壁となる。
機械学習は摂動空間を効率的に探索し、これらのデータから新しい洞察を抽出する可能性を秘めている。
しかし、現在のアプローチでは、関連する生物学の意味的豊かさは無視されており、その目的は下流の生物学的分析と不一致である。
本稿では,大規模言語モデル(LLM)が,複雑な生物学的関係を表現し,実験結果を合理化するための自然な媒体である,という仮説を立てる。
本稿では,摂動実験に対する構造化推論のベンチマークであるPerturbQAを提案する。
既存の知識を主に疑問視する現在のベンチマークとは異なり、PerturbQAは摂動モデリングのオープンな問題にインスパイアされている。
我々は,現在の手法がPerturbQAでは不十分であることを示すとともに,現状の機械学習と統計手法による摂動のモデル化,および標準LLM推論戦略の評価を行った。
実現可能性の証明として,サマー (SUMMarize, retrievE, answeR) を紹介する。
私たちのコードとデータはhttps://github.com/genentech/PerturbQA.comで公開されています。
関連論文リスト
- Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training [10.701353329227722]
学術文献から高品質なテキストトレーニングデータの蒸留を自動化する枠組みを提案する。
われわれのアプローチは、バイオメディカル領域とより密接に一致した質問を自己評価し、生成する。
本手法は,生命科学領域の事前学習モデルと比較して,質問応答タスクを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-25T07:20:44Z) - Causal Representation Learning from Multimodal Biological Observations [57.00712157758845]
我々は,マルチモーダルデータに対するフレキシブルな識別条件の開発を目指している。
我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。
我々の重要な理論的要素は、異なるモーダル間の因果関係の構造的空間性である。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Learning to refine domain knowledge for biological network inference [2.209921757303168]
摂動実験により、生物学者は興味のある変数間の因果関係を発見することができる。
これらのデータの空間性と高次元性は因果構造学習アルゴリズムに重大な課題をもたらす。
そこで本研究では,データ観測に基づくドメイン知識の補修アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-18T12:53:23Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Progress and Opportunities of Foundation Models in Bioinformatics [77.74411726471439]
基礎モデル(FM)は、特に深層学習の領域において、計算生物学の新しい時代に定着した。
我々の焦点は、特定の生物学的問題にFMを応用することであり、研究ニーズに適切なFMを選択するために研究コミュニティを指導することを目的としています。
データノイズ、モデル説明可能性、潜在的なバイアスなど、生物学においてFMが直面する課題と限界を分析します。
論文 参考訳(メタデータ) (2024-02-06T02:29:17Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - The worst of both worlds: A comparative analysis of errors in learning
from data in psychology and machine learning [17.336655978572583]
機械学習(ML)が誤診や複製の危機に直面しているという最近の懸念は、ML研究で公表された主張の一部が対面価値で評価できないことを示唆している。
教師付きMLにおける研究の関心事は、実験科学における複製危機と共通している。
論文 参考訳(メタデータ) (2022-03-12T18:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。