Fugu-MT 論文翻訳(概要): AssayBench: An Assay-Level Virtual Cell Benchmark for LLMs and Agents

論文の概要: AssayBench: An Assay-Level Virtual Cell Benchmark for LLMs and Agents

arxiv url: http://arxiv.org/abs/2605.10876v1
Date: Mon, 11 May 2026 17:27:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:51.03054
Title: AssayBench: An Assay-Level Virtual Cell Benchmark for LLMs and Agents
Title（参考訳）: AssayBench: LLMとエージェントのためのアッセイレベル仮想セルベンチマーク
Authors: Edward De Brouwer, Carl Edwards, Alexander Wu, Jenna Collier, Graham Heimberg, Xiner Li, Meena Subramaniam, Ehsan Hajiramezanali, David Richmond, Jan-Christian Hütter, Sara Mostafavi, Gabriele Scalia,
Abstract要約: 我々は1,920個のCRISPRスクリーンから構築された表現型スクリーン予測のベンチマークであるAssayBenchを紹介する。我々は,各画面の遺伝子ランク予測として画面予測タスクを定式化し,性能比較のための連続指標である調整されたnDCGを導入する。評価の結果,既存手法は経験的に推定された性能天井から遠く離れていることが明らかとなった。
参考スコア（独自算出の注目度）: 45.98505638696823
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in machine learning and large-scale biological data collections have revived the prospect of building a virtual cell, a computational model of cellular behavior that could accelerate biological discovery. One of the most compelling promises of this vision is the ability to perform in silico phenotypic screens, in which a model predicts the effects of cellular perturbations in unseen biological contexts. This task combines heterogeneous textual inputs with diverse phenotypic outputs, making it particularly well-suited to LLMs and agentic systems. Yet, no standard benchmark currently exists for this task, as existing efforts focus on narrower molecular readouts that are only indirectly aligned with the phenotypic endpoints driving many real-world drug discovery workflows. In this work, we present AssayBench, a benchmark for phenotypic screen prediction, built from 1,920 publicly available CRISPR screens spanning five broad classes of cellular phenotypes. We formulate the screen prediction task as a gene rank prediction for each screen and introduce the adjusted nDCG, a continuous metric for comparing performance across heterogeneous assays. Our extensive evaluation shows that existing methods remain far from empirically estimated performance ceilings and zero-shot generalist LLMs outperform biology-specific LLMs and trainable baselines. Optimization techniques such as fine-tuning, ensembling, and prompt optimization can further improve LLM performance on this task. Overall, AssayBench offers a practical testbed for measuring progress toward in silico phenotypic screening and, more broadly, virtual cell models.
Abstract（参考訳）: 機械学習と大規模生物学的データ収集の最近の進歩は、生物学的発見を加速する細胞行動の計算モデルである仮想細胞の構築の可能性を復活させた。このビジョンの最も説得力のある約束の1つは、モデルが目に見えない生物学的文脈における細胞摂動の影響を予測する、シリコ表現型スクリーンで実行する能力である。このタスクは異種テキスト入力と多様な表現型出力を組み合わせており、特にLLMやエージェントシステムに適している。既存の取り組みは、多くの現実世界の薬物発見ワークフローを駆動する表現型エンドポイントと間接的に一致しているだけである。本研究では,5種類の細胞性表現型にまたがる1,920個のCRISPRスクリーンから構築した,表現型スクリーン予測のベンチマークであるAssayBenchを紹介する。スクリーン予測タスクを各画面の遺伝子ランク予測として定式化し、不均一なアッセイのパフォーマンスを比較するための連続的な指標である調整されたnDCGを導入する。実験によって推定された性能天井やゼロショットジェネラリストのLCMは,生物固有のLCMやトレーニング可能なベースラインよりも優れていた。微調整、アンサンブル、即時最適化といった最適化手法は、このタスクにおけるLLMの性能をさらに向上させることができる。全体として、AssayBenchは、シリコ表現型スクリーニングおよびより広義の仮想細胞モデルにおける進歩を測定するための実用的なテストベッドを提供する。

関連論文リスト

Lessons Learned from Deploying Adaptive Machine Learning Agents with Limited Data for Real-time Cell Culture Process Monitoring [4.920530441985874]
本研究では, 細胞培養プロセスにおけるグルコース, 乳酸, アンモニウム濃度のリアルタイム予測のための機械学習(ML)3つのアプローチの展開について検討した。この研究は、限られたデータ可用性とプロセスの可変性に関連する課題に対処する。各種バイオプロセス条件がモデル性能に及ぼす影響を評価するために, 2つの産業ケーススタディを提出した。
論文参考訳（メタデータ） (2025-08-29T22:26:13Z)
CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文参考訳（メタデータ） (2025-05-09T06:47:23Z)
Predicting gene essentiality and drug response from perturbation screens in preclinical cancer models with LEAP: Layered Ensemble of Autoencoders and Predictors [4.882734501598445]
既存の予測モデルは限定的、一般化可能性、解釈可能性に悩まされている。自動エンコーダと予測器の階層化フレームワーク(LEAP)について紹介する。 LEAPは、モデリング戦略を越えて、未スクリーンのセルラインでの予測性能を一貫して改善する。
論文参考訳（メタデータ） (2025-02-21T18:12:36Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
scReader: Prompting Large Language Models to Interpret scRNA-seq Data [12.767105992391555]
本稿では,大規模言語モデルの一般的な知識機能と,単一セルオミクスデータ解釈のためのドメイン固有表現モデルを統合する,革新的なハイブリッドアプローチを提案する。単細胞遺伝子レベルでの遺伝子発現データをプロンプトで入力することにより、様々な種および細胞タイプにわたる遺伝子発現の差分レベルに基づいて、細胞表現を効果的にモデル化する。
論文参考訳（メタデータ） (2024-12-24T04:28:42Z)
Weakly Supervised Set-Consistency Learning Improves Morphological Profiling of Single-Cell Images [0.6491172192043603]
単一セル画像における摂動効果の学習表現を改善するために,設定レベルの整合性学習アルゴリズムset-DINOを提案する。 5000以上の遺伝的摂動を伴う大規模光ポーリングスクリーニングデータセットの実験を行った。
論文参考訳（メタデータ） (2024-06-08T00:53:30Z)
Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文参考訳（メタデータ） (2022-07-18T19:16:56Z)
Towards an Automatic Analysis of CHO-K1 Suspension Growth in Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文参考訳（メタデータ） (2020-10-20T08:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。