論文の概要: scBench: Evaluating AI Agents on Single-Cell RNA-seq Analysis
- arxiv url: http://arxiv.org/abs/2602.09063v1
- Date: Mon, 09 Feb 2026 03:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.164241
- Title: scBench: Evaluating AI Agents on Single-Cell RNA-seq Analysis
- Title(参考訳): scBench: シングルセルRNA-seq分析によるAIエージェントの評価
- Authors: Kenny Workman, Zhen Yang, Harihara Muralidharan, Aidan Abdulali, Hannah Le,
- Abstract要約: scBenchは、scRNA-seqデータセットに由来する394の検証可能な問題のベンチマークである。
8つのフロンティアモデルのベンチマークデータによると、精度は29~53%で、強力なモデルタスクとモデルプラットフォーム相互作用がある。
- 参考スコア(独自算出の注目度): 6.518767416778027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As single-cell RNA sequencing datasets grow in adoption, scale, and complexity, data analysis remains a bottleneck for many research groups. Although frontier AI agents have improved dramatically at software engineering and general data analysis, it remains unclear whether they can extract biological insight from messy, real-world single-cell datasets. We introduce scBench, a benchmark of 394 verifiable problems derived from practical scRNA-seq workflows spanning six sequencing platforms and seven task categories. Each problem provides a snapshot of experimental data immediately prior to an analysis step and a deterministic grader that evaluates recovery of a key biological result. Benchmark data on eight frontier models shows that accuracy ranges from 29-53%, with strong model-task and model-platform interactions. Platform choice affects accuracy as much as model choice, with 40+ percentage point drops on less-documented technologies. scBench complements SpatialBench to cover the two dominant single-cell modalities, serving both as a measurement tool and a diagnostic lens for developing agents that can analyze real scRNA-seq datasets faithfully and reproducibly.
- Abstract(参考訳): シングルセルRNAシークエンシングデータセットが採用、スケール、複雑さで成長するにつれて、データ分析は多くの研究グループでボトルネックとなっている。
フロンティアAIエージェントは、ソフトウェアエンジニアリングと一般的なデータ分析において劇的に改善されているが、乱雑な現実世界の単一セルデータセットから生物学的洞察を抽出できるかどうかは不明だ。
scBenchは6つのシークエンシングプラットフォームと7つのタスクカテゴリにまたがる実践的な scRNA-seq ワークフローから導かれる394の検証可能な問題のベンチマークである。
各問題は、分析ステップの直前に実験データのスナップショットと、重要な生物学的結果の回復を評価する決定論的グレーダを提供する。
8つのフロンティアモデルのベンチマークデータによると、精度は29~53%で、強力なモデルタスクとモデルプラットフォーム相互作用がある。
プラットフォーム選択はモデル選択の精度にも影響し、ドキュメントの少ない技術では40以上のポイントが減少する。
scBenchは、SpatialBenchを補完して、2つの支配的な単一セルモードをカバーし、実際のscRNA-seqデータセットを忠実かつ再現的に分析できるエージェントを開発するための測定ツールと診断レンズとして機能する。
関連論文リスト
- SpatialBench: Can Agents Analyze Real-World Spatial Biology Data? [6.993633248897315]
本研究では,実践的な空間分析から得られた146の検証可能な問題のベンチマークであるSpatialBenchを紹介する。
各問題は、分析ステップの直前に実験データのスナップショットを提供する。
ベースモデルの精度は依然として低く、強力なモデルタスクとモデルプラットフォーム相互作用がある。
論文 参考訳(メタデータ) (2025-12-26T07:40:11Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - scUnified: An AI-Ready Standardized Resource for Single-Cell RNA Sequencing Analysis [23.973638982075016]
我々は、シングルセルRNAシークエンシングデータのための、AI対応の標準リソース scUnified を提案する。
scUnified Consolided to 13 high-quality datasets across two species and 9 tissue types。
論文 参考訳(メタデータ) (2025-09-30T07:23:01Z) - CellPainTR: Generalizable Representation Learning for Cross-Dataset Cell Painting Analysis [51.56484100374058]
本稿では,細胞形態の基本的な表現を学習するためのトランスフォーマーベースのアーキテクチャであるCellPainTRを紹介する。
私たちの研究は、画像ベースのプロファイリングのための真の基盤モデルを作成するための重要なステップであり、より信頼性が高くスケーラブルなクロススタディ生物学的分析を可能にします。
論文 参考訳(メタデータ) (2025-09-02T03:30:07Z) - Crucial-Diff: A Unified Diffusion Model for Crucial Image and Annotation Synthesis in Data-scarce Scenarios [65.97836905826145]
医療、産業、自動運転といったさまざまなシナリオにおけるデータの不足は、モデルの過度な適合とデータセットの不均衡につながる。
重要なサンプルを合成するドメインに依存しないフレームワークであるCrucial-Diffを提案する。
我々のフレームワークは多様な高品質なトレーニングデータを生成し、ピクセルレベルのAPは83.63%、F1-MAXは78.12%である。
論文 参考訳(メタデータ) (2025-07-14T04:41:38Z) - DeepSeq: High-Throughput Single-Cell RNA Sequencing Data Labeling via Web Search-Augmented Agentic Generative AI Foundation Models [0.0]
生成AI基盤モデルは、構造化された生物学的データを処理するための変換ポテンシャルを提供する。
本稿では,実時間Web検索を用いたエージェント基礎モデルを用いて実験データのラベル付けを自動化し,最大82.5%の精度を実現することを提案する。
論文 参考訳(メタデータ) (2025-06-14T23:30:22Z) - DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery [54.79763887844838]
大規模言語モデル(LLM)と自律エージェントの統合は、自動推論とタスク実行を通じて科学的発見を促進する大きな可能性を秘めている。
本稿では,薬物発見におけるエンドツーエンド科学のために設計されたパラメータ化推論アーキテクチャを備えたLSMベースのエージェントシステムであるDrarmPilotを紹介する。
DrugPilot は ReAct や LoT のような最先端のエージェントよりも優れており、タスク完了率は98.0%、93.5%、64.0%である。
論文 参考訳(メタデータ) (2025-05-20T05:18:15Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。