論文の概要: SynthPert: Enhancing LLM Biological Reasoning via Synthetic Reasoning Traces for Cellular Perturbation Prediction
- arxiv url: http://arxiv.org/abs/2509.25346v1
- Date: Mon, 29 Sep 2025 18:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.256797
- Title: SynthPert: Enhancing LLM Biological Reasoning via Synthetic Reasoning Traces for Cellular Perturbation Prediction
- Title(参考訳): SynthPert: 細胞摂動予測のための合成推論トレースによるLLM生物推論の強化
- Authors: Lawrence Phillips, Marc Boubnovski Martell, Aditya Misra, Josefa Lia Stoisser, Cesar A. Prada-Medina, Rory Donovan-Maiye, Kaspar Märtens,
- Abstract要約: 合成推論は、部分的に不正確な場合でも生物学的知識を効果的に蒸留する。
このアプローチは、未知のRPE1細胞に対して87%の精度で、クロスセル型一般化を可能にする。
- 参考スコア(独自算出の注目度): 3.8698178563798113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting cellular responses to genetic perturbations represents a fundamental challenge in systems biology, critical for advancing therapeutic discovery and virtual cell modeling. While large language models (LLMs) show promise for biological reasoning, their application to perturbation prediction remains underexplored due to challenges in adapting them to structured experimental data. We present SynthPert, a novel method that enhances LLM performance through supervised fine-tuning on synthetic reasoning traces generated by frontier models. Using the PerturbQA benchmark, we demonstrate that our approach not only achieves state-of-the-art performance but surpasses the capabilities of the frontier model that generated the training data. Our results reveal three key insights: (1) Synthetic reasoning traces effectively distill biological knowledge even when partially inaccurate, (2) This approach enables cross-cell-type generalization with 87% accuracy on unseen RPE1 cells, and (3) Performance gains persist despite using only 2% of quality-filtered training data. This work shows the effectiveness of synthetic reasoning distillation for enhancing domain-specific reasoning in LLMs.
- Abstract(参考訳): 遺伝子摂動に対する細胞応答の予測は、システム生物学における根本的な課題であり、治療発見と仮想細胞モデリングの推進に重要である。
大規模言語モデル (LLM) は生物学的推論の可能性を示唆するが、それらの摂動予測への応用は、構造化された実験データに適応する上での課題のため、未解明のままである。
我々は,フロンティアモデルにより生成された合成推論トレースを教師付き微調整することで,LLM性能を向上させる新しい手法であるSynthPertを提案する。
PerturbQAベンチマークを用いて、我々のアプローチは最先端のパフォーマンスを達成するだけでなく、トレーニングデータを生成するフロンティアモデルの能力を上回ることを実証する。
提案手法は, 未確認のRPE1細胞に対して, 87%の精度でクロスセル型一般化が可能であり, 品質フィルタによるトレーニングデータの2%しか使用していないにもかかわらず, 性能向上は持続する。
本研究は, LLMのドメイン特異的推論を向上するための合成推論蒸留の有効性を示す。
関連論文リスト
- Lessons Learned from Deploying Adaptive Machine Learning Agents with Limited Data for Real-time Cell Culture Process Monitoring [4.920530441985874]
本研究では, 細胞培養プロセスにおけるグルコース, 乳酸, アンモニウム濃度のリアルタイム予測のための機械学習(ML)3つのアプローチの展開について検討した。
この研究は、限られたデータ可用性とプロセスの可変性に関連する課題に対処する。
各種バイオプロセス条件がモデル性能に及ぼす影響を評価するために, 2つの産業ケーススタディを提出した。
論文 参考訳(メタデータ) (2025-08-29T22:26:13Z) - CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。
我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文 参考訳(メタデータ) (2025-05-09T06:47:23Z) - TarDiff: Target-Oriented Diffusion Guidance for Synthetic Electronic Health Record Time Series Generation [26.116599951658454]
時系列生成は臨床機械学習モデルの進歩に不可欠である。
観測データのみに対する忠実性は、モデル性能の向上を保証するものではない、と我々は主張する。
タスク固有のインフルエンスガイダンスを統合した,新たなターゲット指向拡散フレームワークであるTarDiffを提案する。
論文 参考訳(メタデータ) (2025-04-24T14:36:10Z) - MathPhys-Guided Coarse-to-Fine Anomaly Synthesis with SQE-Driven Bi-Level Optimization for Anomaly Detection [30.77558600436759]
本研究では,Math-Physモデル誘導による合成異常を生成する,新しい軽量パイプラインを提案する。
本手法は現実的な欠陥マスクを生成し,その後2段階に拡張した。
本手法を検証するために,MVTec AD, VisA, BTADの3つの異常検出ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2025-04-17T14:22:27Z) - Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
予測型因果推論(PPCI)に焦点をあてる
PPCIは、未ラベルの事実結果を用いた対象実験における治療効果を推定し、事前訓練されたモデルからゼロショットを取得する。
バニラ実験的リスク最小化によって解決不可能なインスタンスに対するソリューションを提供するため,本手法を合成および実世界の科学的データに対して検証する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - Merging synthetic and real embryo data for advanced AI predictions [69.07284335967019]
我々は、作成した2つのデータセットを用いて、2つの生成モデルをトレーニングし、既存の1つのデータセットを使用して、様々な細胞レベルで合成胚画像を生成する。
これらは実画像と組み合わせて、胚細胞ステージ予測のための分類モデルを訓練した。
その結果,実データと合成画像を組み合わせることで分類性能が向上し,実データのみをトレーニングした場合の94.5%に比べて97%の精度が得られた。
論文 参考訳(メタデータ) (2024-12-02T08:24:49Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - PIGNet2: A Versatile Deep Learning-based Protein-Ligand Interaction
Prediction Model for Binding Affinity Scoring and Virtual Screening [0.0]
タンパク質-リガンド相互作用の予測(PLI)は、薬物発見において重要な役割を果たす。
結合親和性を正確に評価し、効率的な仮想スクリーニングを行う汎用モデルの開発は依然として課題である。
本稿では、物理インフォームドグラフニューラルネットワークと組み合わせて、新しいデータ拡張戦略を導入することにより、実現可能なソリューションを提案する。
論文 参考訳(メタデータ) (2023-07-03T14:46:49Z) - PhagoStat a scalable and interpretable end to end framework for
efficient quantification of cell phagocytosis in neurodegenerative disease
studies [0.0]
本稿では,食欲活動の定量化と分析を行うためのエンドツーエンド,スケーラブル,汎用的なリアルタイムフレームワークを提案する。
提案するパイプラインでは,大規模なデータセットを処理でき,データ品質検証モジュールも備えている。
我々はこのパイプラインをFTDの微小グリア細胞食細胞解析に応用し,統計的に信頼性の高い結果を得た。
論文 参考訳(メタデータ) (2023-04-26T18:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。