論文の概要: AblateCell: A Reproduce-then-Ablate Agent for Virtual Cell Repositories
- arxiv url: http://arxiv.org/abs/2604.19606v2
- Date: Thu, 30 Apr 2026 03:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 14:06:12.532556
- Title: AblateCell: A Reproduce-then-Ablate Agent for Virtual Cell Repositories
- Title(参考訳): AblateCell: 仮想細胞レポジトリのための再生型Then-Ablateエージェント
- Authors: Xue Xia, Chengkai Yao, Mingyu Tsoi, Xinjie Mao, Wenxuan Huang, Jiaqi Wei, Hao Wu, Cheng Tan, Lang Yu, Yuejin Yang, Mengdi Liu, Siqi Sun, Zhangyang Gao,
- Abstract要約: AblateCell(アブレートセル)は、仮想細胞リポジトリの再生-then-ablateエージェントである。
報告されたベースラインを自動設定環境によってエンドツーエンドに再現する。
その後、単離されたレポジトリ変異のグラフを生成することにより、クローズドループアブレーションを行う。
- 参考スコア(独自算出の注目度): 33.03026945938585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Systematic ablations are essential to attribute performance gains in AI Virtual Cells, yet they are rarely performed because biological repositories are under-standardized and tightly coupled to domain-specific data and formats. While recent coding agents can translate ideas into implementations, they typically stop at producing code and lack a verifier that can reproduce strong baselines and rigorously test which components truly matter. We introduce AblateCell, a reproduce-then-ablate agent for virtual cell repositories that closes this verification gap. AblateCell first reproduces reported baselines end-to-end by auto-configuring environments, resolving dependency and data issues, and rerunning official evaluations while emitting verifiable artifacts. It then conducts closed-loop ablation by generating a graph of isolated repository mutations and adaptively selecting experiments under a reward that trades off performance impact and execution cost. Evaluated on three single-cell perturbation prediction repositories (CPA, GEARS, BioLORD), AblateCell achieves 88.9% (+29.9% to human expert) end-to-end workflow success and 93.3% (+53.3% to heuristic) accuracy in recovering ground-truth critical components. These results enable scalable, repository-grounded verification and attribution directly on biological codebases.
- Abstract(参考訳): AI Virtual Cellsのパフォーマンス向上を属性付けるには、体系的な改善が不可欠だが、生物学的リポジトリは標準化されていないため、ドメイン固有のデータやフォーマットと密結合されているため、実施されることは稀である。
最近のコーディングエージェントはアイデアを実装に変換することができるが、一般的にコードの作成をやめ、強力なベースラインを再現し、どのコンポーネントが本当に重要なのかを厳格にテストできる検証器がない。
本稿では,この検証ギャップを埋める仮想セルリポジトリの再生-then-ablateエージェントであるAblateCellを紹介する。
AblateCellは、最初に報告されたベースラインを自動設定し、依存関係とデータの問題を解決し、検証可能なアーティファクトを出力しながら公式評価を再実行することで、エンドツーエンドで再現する。
その後、独立したリポジトリ変異のグラフを生成し、パフォーマンスへの影響と実行コストをトレードオフする報酬の下で実験を適応的に選択することで、クローズドループアブレーションを実行する。
単細胞摂動予測レポジトリ(CPA、GEARS、BioLORD)の評価では、AblateCellは88.9%(人間の専門家は+29.9%)のエンドツーエンドのワークフロー成功と93.3%(ヒューリスティックでは+53.3%)の精度を達成している。
これらの結果により、スケーラブルでリポジトリベースの検証と生物学的コードベースへの直接の帰属が可能になります。
関連論文リスト
- MAT-Cell: A Multi-Agent Tree-Structured Reasoning Framework for Batch-Level Single-Cell Annotation [81.82645086402366]
MAT-Cellは,単細胞解析を構築的で検証可能な証明生成に再構成する,ニューロシンボリック推論フレームワークである。
MAT-Cellは、適応型レトリーバル増強生成(RAG)を通じて、生物学的公理の基底神経推論に象徴的な制約を注入し、転写ノイズを減少させる。
最先端のSOTA(State-of-the-art)モデルを大幅に上回り、挑戦的なシナリオにおいて堅牢なパフォーマンスを維持します。
論文 参考訳(メタデータ) (2026-04-07T04:56:06Z) - Containing the Reproducibility Gap: Automated Repository-Level Containerization for Scholarly Jupyter Notebooks [0.0]
環境の漂流、文書化されていない依存関係、暗黙的な実行仮定は、出版された研究の独立した再実行を妨げる。
学術ノートのリポジトリレベルの実行環境を再構築し,評価する,Web指向の自動化型エンジニアリングパイプラインを提案する。
システムは依存性推論、コンテナの自動生成、ノートブックのオリジナルの計算コンテキストを近似するために独立した実行を実行する。
論文 参考訳(メタデータ) (2026-04-01T16:07:54Z) - Can LLM Agents Generate Real-World Evidence? Evaluating Observational Studies in Medical Databases [17.35673829214932]
我々は、MIMIC-IVをベースとしたRWE-benchについて、ピアレビューによる観察研究から紹介する。
各タスクは対応する研究プロトコルを基準として提供し、エージェントは実際のデータベースで実験を行う必要がある。
162タスク全体では、タスク成功率は低く、最高のエージェントが39.9%、最高のオープンソースモデルが30.4%に達する。
論文 参考訳(メタデータ) (2026-03-24T03:50:34Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents [70.68963723787424]
TermiGenは検証可能な環境とレジリエントな専門家軌道を合成するためのエンドツーエンドパイプラインである。
TermiGen-Qwen2.5-Coder-32B は TerminalBench 上で 31.3% のパスレートを達成した。
論文 参考訳(メタデータ) (2026-02-06T23:56:50Z) - BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics [0.0]
BioAgent Benchは、AIエージェントのパフォーマンスと堅牢性を測定するために設計された、ベンチマークデータセットと評価スイートである。
ベンチマークには、自動アセスメントをサポートするための具体的な出力アーティファクトを指定するプロンプトを備えた、エンドツーエンドタスクのキュレートが含まれている。
複数のエージェントハーネスをまたいだフロンティアクローズドソースおよびオープンウェイトモデルの評価を行った。
論文 参考訳(メタデータ) (2026-01-29T14:44:03Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。