論文の概要: Verifiable Benchmarking of Long-Horizon Spatial Biology
- arxiv url: http://arxiv.org/abs/2605.28065v1
- Date: Wed, 27 May 2026 07:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.838402
- Title: Verifiable Benchmarking of Long-Horizon Spatial Biology
- Title(参考訳): 長軸空間生物学の検証可能なベンチマーク
- Authors: Ian Diks, Harihara Muralidharan, Tim Proctor, Kenny Workman,
- Abstract要約: SpaceBench-Longは、長距離空間生物学のベンチマークである。
複雑な空間測定から正確な科学的結論を導き出すために、AIエージェントが手続き分析の実行を超えて移動できるかどうかをテストする。
Gemini 3.5 Flash / Pi端末の符号化ハーネス、GPT-5.5 / Pi、GPT-5.5 / OpenAI Codexの3つのモデルハーネスペアが8/72で接続される(11.1%)。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are increasingly useful for biological data analysis, but existing benchmarks mostly test broad biological knowledge, executable workflows, or localized analysis steps rather than end-to-end scientific reasoning over spatial measurements. We introduce SpatialBench-Long, a benchmark for long-horizon spatial biology in which agents must recover biological claims from raw or near-raw data and calibrated experimental context without prescribed methods. SpatialBench-Long contains 24 evaluations across primary pancreatic ductal adenocarcinoma (PDAC), engineered glioblastoma organoids and in vivo tumors, Cas9 lineage-traced lung adenocarcinoma, and mouse optic nerve aging/intervention systems, spanning CosMx, Visium, Xenium, multiplexed error-robust fluorescence in situ hybridization (MERFISH), single-cell RNA sequencing (scRNA-seq), Slide-seq, Slide-tags, histology, and lineage-recording data. Candidate claims are hardened through reproduction, independent scientist review, and trajectory inspection. Final answers are graded deterministically over controlled vocabularies and symbols with companion rubrics capturing progress through key analysis chokepoints. Across the SpatialBench-Long benchmark, three model-harness pairs tie at 8/72 runs (11.1\%): Gemini 3.5 Flash / Pi terminal coding harness, GPT-5.5 / Pi, and GPT-5.5 / OpenAI Codex. SpatialBench-Long tests whether agents can move beyond executing procedural analysis to deriving accurate scientific conclusions from complex spatial measurements.
- Abstract(参考訳): AIエージェントは、生物データ分析にますます有用になるが、既存のベンチマークは主に、空間測定よりも、幅広い生物学的知識、実行可能なワークフロー、あるいは、エンドツーエンドの科学的推論よりも、局所的な分析ステップをテストする。
本研究では,長期空間生物学のためのベンチマークであるSpatialBench-Longを紹介した。
SpaceBench-Longは、原発性膵管腺癌(PDAC)、血管新生腫瘍、Cas9線条性肺腺癌、マウス視神経加齢・インターベンションシステム、CosMx, Visium, Xenium, multiplexed error-robust fluorescence in situ hybridization(MERFISH),シングルセルRNAシークエンシング(scRNA-seq),Slide-seq, Slide-tags, histology, lineage-recording dataの24種類の評価を含む。
候補者の主張は、再生、独立した科学者レビュー、軌道検査によって強化される。
最終回答は、制御された語彙と、キー解析チョークポイントを通して進行を捉えた補助ルーリックを持つ記号に対して決定的に定式化される。
SpaceBench-Longベンチマークでは、8/72で3つのモデルハーネスペアが(11.1\%)、Gemini 3.5 Flash / Pi端末の符号化ハーネス、GPT-5.5 / Pi、GPT-5.5 / OpenAI Codexが使用されている。
SpaceBench-Longは、複雑な空間測定から正確な科学的結論を導き出すために、エージェントが手続き解析の実行を超えて移動できるかどうかをテストする。
関連論文リスト
- scBench: Evaluating AI Agents on Single-Cell RNA-seq Analysis [6.518767416778027]
scBenchは、scRNA-seqデータセットに由来する394の検証可能な問題のベンチマークである。
8つのフロンティアモデルのベンチマークデータによると、精度は29~53%で、強力なモデルタスクとモデルプラットフォーム相互作用がある。
論文 参考訳(メタデータ) (2026-02-09T03:20:31Z) - Organ-Agents: Virtual Human Physiology Simulator via LLMs [66.40796430669158]
オルガン-エージェント(Organ-Agents)は、LDM駆動のエージェントを介して人間の生理学をシミュレートする多エージェントフレームワークである。
症例は7,134例,コントロール7,895例で,9系統および125変数にわたる高分解能トラジェクトリを作成した。
臓器抗原は4,509人の保留患者に対して高いシミュレーション精度を達成し, システムごとのMSE0.16とSOFA系重症度層間の堅牢性を示した。
論文 参考訳(メタデータ) (2025-08-20T01:58:45Z) - Advances in Automated Fetal Brain MRI Segmentation and Biometry: Insights from the FeTA 2024 Challenge [27.07002392996198]
FeTA Challenge 2024は胎児脳MRI解析を進歩させた。
組織セグメンテーションと並行して新しい課題としてバイオメトリ予測を導入した。
今回は、新しいローフィールド(0.55T)MRIデータセットからのデータを含む、多様なマルチ中心テストセットを初めて紹介しました。
論文 参考訳(メタデータ) (2025-05-05T16:54:04Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Detecting and clustering swallow events in esophageal long-term high-resolution manometry [48.688209040613216]
深達度学習に基づく飲み込み検出法を提案し, 二次性非解離性食道運動障害を正確に同定する。
われわれは,25 LTHRMで計算パイプラインを評価し,医療専門家の注意を喚起した。
論文 参考訳(メタデータ) (2024-05-02T09:41:31Z) - Intelligent diagnostic scheme for lung cancer screening with Raman
spectra data by tensor network machine learning [10.813777115744362]
呼気中の揮発性有機化合物(VOC)のラマンスペクトルデータをスクリーニングすることにより,肺がん患者とそのステージを確実に予測するテンソルネットワーク(TN)-ML法を提案する。
高い確実性を持つサンプルの精度はほぼ100$%$である。
論文 参考訳(メタデータ) (2023-03-11T07:57:37Z) - Generalizing electrocardiogram delineation: training convolutional
neural networks with synthetic data augmentation [63.51064808536065]
ECGのデライン化のための既存のデータベースは小さく、サイズやそれらが表す病態の配列に不足している。
まず、原データベースから抽出した基本セグメントのプールを与えられたECGトレースを確率的に合成し、その整合性のある合成トレースに配置するための一連のルールを考案した。
第二に、2つの新しいセグメンテーションに基づく損失関数が開発され、これは、正確な数の独立構造の予測を強制し、サンプル数の削減に焦点をあてて、より密接なセグメンテーション境界を創出することを目的としている。
論文 参考訳(メタデータ) (2021-11-25T10:11:41Z) - Video-based Remote Physiological Measurement via Cross-verified Feature
Disentangling [121.50704279659253]
非生理的表現と生理的特徴を混同するための横断的特徴分離戦略を提案する。
次に, 蒸留された生理特性を用いて, 頑健なマルチタスク生理測定を行った。
歪んだ特徴は、最終的に平均HR値やr信号のような複数の生理的信号の合同予測に使用される。
論文 参考訳(メタデータ) (2020-07-16T09:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。