論文の概要: SpatialBench: Can Agents Analyze Real-World Spatial Biology Data?
- arxiv url: http://arxiv.org/abs/2512.21907v1
- Date: Fri, 26 Dec 2025 07:40:11 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:02:05.683842
- Title: SpatialBench: Can Agents Analyze Real-World Spatial Biology Data?
- Title(参考訳): 空間ベンチ:エージェントは現実世界の空間生物学データを分析できるか?
- Authors: Kenny Workman, Zhen Yang, Harihara Muralidharan, Hannah Le,
- Abstract要約: 本研究では,実践的な空間分析から得られた146の検証可能な問題のベンチマークであるSpatialBenchを紹介する。
各問題は、分析ステップの直前に実験データのスナップショットを提供する。
ベースモデルの精度は依然として低く、強力なモデルタスクとモデルプラットフォーム相互作用がある。
- 参考スコア(独自算出の注目度): 6.993633248897315
- License:
- Abstract: Spatial transcriptomics assays are rapidly increasing in scale and complexity, making computational analysis a major bottleneck in biological discovery. Although frontier AI agents have improved dramatically at software engineering and general data analysis, it remains unclear whether they can extract biological insight from messy, real-world spatial datasets. We introduce SpatialBench, a benchmark of 146 verifiable problems derived from practical spatial analysis workflows spanning five spatial technologies and seven task categories. Each problem provides a snapshot of experimental data immediately prior to an analysis step and a deterministic grader that evaluates recovery of a key biological result. Benchmark data on frontier models shows that base model accuracy remains low (20-38% across model families), with strong model-task and model-platform interactions. Harness design has a large empirical effect on performance, indicating that tools, prompts, control flow, and execution environment should be evaluated and improved as first-class objects. SpatialBench serves both as a measurement tool and a diagnostic lens for developing agents that can interact with real spatial datasets faithfully, transparently, and reproducibly.
- Abstract(参考訳): 空間転写学的測定法は、スケールと複雑さが急速に増加しており、計算分析は生物学的発見において大きなボトルネックとなっている。
フロンティアAIエージェントは、ソフトウェアエンジニアリングと一般的なデータ分析において劇的に改善されているが、乱雑で現実世界の空間データセットから生物学的洞察を抽出できるかどうかは不明だ。
本研究では,5つの空間技術と7つのタスクカテゴリにまたがる実践的空間分析ワークフローから得られた146の検証可能な問題のベンチマークであるSpatialBenchを紹介する。
各問題は、分析ステップの直前に実験データのスナップショットと、重要な生物学的結果の回復を評価する決定論的グレーダを提供する。
フロンティアモデルのベンチマークデータは、ベースモデルの精度が低く(モデルファミリー全体で20~38%)、モデルタスクとモデルプラットフォーム間の相互作用が強いことを示している。
Harness設計は、ツール、プロンプト、制御フロー、実行環境を第一級オブジェクトとして評価し、改善すべきであることを示している。
SpaceBenchは、実際の空間データセットを忠実に、透過的に、再現できるエージェントを開発するための測定ツールと診断レンズの両方として機能する。
関連論文リスト
- Real-Time Health Analytics Using Ontology-Driven Complex Event Processing and LLM Reasoning: A Tuberculosis Case Study [4.0954316720608634]
本研究では,複合イベント処理(CEP)と大規模言語モデル(LLM)を統合したオントロジー対応リアルタイム分析フレームワークを提案する。
CEPエンジンが臨床的に重要なイベントパターンを検出するApache KafkaとSpark Streamingを使用して、患者のデータを取り込み、処理する。
このフレームワークは、1,000人の結核患者(TB)のデータセットをユースケースとして評価し、低レイテンシなイベント検出、スケーラブルな推論、高モデルパフォーマンスを実証する。
論文 参考訳(メタデータ) (2025-10-05T14:21:46Z) - CellPainTR: Generalizable Representation Learning for Cross-Dataset Cell Painting Analysis [51.56484100374058]
本稿では,細胞形態の基本的な表現を学習するためのトランスフォーマーベースのアーキテクチャであるCellPainTRを紹介する。
私たちの研究は、画像ベースのプロファイリングのための真の基盤モデルを作成するための重要なステップであり、より信頼性が高くスケーラブルなクロススタディ生物学的分析を可能にします。
論文 参考訳(メタデータ) (2025-09-02T03:30:07Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Towards Interpretable and Efficient Feature Selection in Trajectory Datasets: A Taxonomic Approach [0.0]
軌道解析は、物体が時空を移動するパターンを理解する上で、またその次の動きを予測する上で、最も重要である。
この分野への大きな関心から、データ収集は大幅に改善され、トレーニングや予測モデルで利用可能な多くの機能が利用可能になった。
これにより、データの効率性と解釈性が低下し、機械学習モデルの精度が低下する。
論文 参考訳(メタデータ) (2025-06-25T12:21:20Z) - BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational Biology [4.099098082010236]
LLM(Large Language Models)とLLMをベースとしたエージェントは、科学研究の加速に大きな期待を示している。
本稿では,バイオインフォマティクスベンチマーク(BixBench)について述べる。
オープンソースのカスタムエージェントフレームワークを用いて,2つのフロンティアLCMの性能評価を行った。
論文 参考訳(メタデータ) (2025-02-28T18:47:57Z) - Deep Learning in Single-Cell and Spatial Transcriptomics Data Analysis: Advances and Challenges from a Data Science Perspective [19.655130697247518]
単一細胞および空間転写学の発展は、細胞の性質、機能、相互作用を研究する能力に革命をもたらした。
しかし,単一セル・空間オミクスデータの解析は依然として困難である。
ディープラーニングは、高次元の複雑なデータを処理し、意味のあるパターンを自動的に識別できる強力なツールとして登場した。
論文 参考訳(メタデータ) (2024-12-04T14:07:11Z) - Discovering physical laws with parallel symbolic enumeration [67.36739393470869]
並列記号列挙法(PSE)を導入し,限られたデータから汎用数学的表現を効率的に抽出する。
実験の結果,PSEは最先端のベースラインアルゴリズムと比較して精度が高く,計算速度も速いことがわかった。
PSEは、記号的、解釈可能なモデルの正確で効率的なデータ駆動による発見の進歩を表している。
論文 参考訳(メタデータ) (2024-07-05T10:41:15Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。