論文の概要: SC-Arena: A Natural Language Benchmark for Single-Cell Reasoning with Knowledge-Augmented Evaluation
- arxiv url: http://arxiv.org/abs/2602.23199v1
- Date: Thu, 26 Feb 2026 16:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.788475
- Title: SC-Arena: A Natural Language Benchmark for Single-Cell Reasoning with Knowledge-Augmented Evaluation
- Title(参考訳): SC-Arena:知識付加評価によるシングルセル推論のための自然言語ベンチマーク
- Authors: Jiahao Zhao, Feng Jiang, Shaowei Qin, Zhonghui Zhang, Junhao Liu, Guibing Guo, Hamid Alinejad-Rokny, Min Yang,
- Abstract要約: 本稿では,単一セル基盤モデルに適した自然言語評価フレームワークSC-ARENAを提案する。
SC-ARENAは、固有の属性と遺伝子レベルの相互作用の両方を表現して評価対象を統一する仮想セル抽象化を形式化する。
- 参考スコア(独自算出の注目度): 24.956743572453153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly applied in scientific research, offering new capabilities for knowledge discovery and reasoning. In single-cell biology, however, evaluation practices for both general and specialized LLMs remain inadequate: existing benchmarks are fragmented across tasks, adopt formats such as multiple-choice classification that diverge from real-world usage, and rely on metrics lacking interpretability and biological grounding. We present SC-ARENA, a natural language evaluation framework tailored to single-cell foundation models. SC-ARENA formalizes a virtual cell abstraction that unifies evaluation targets by representing both intrinsic attributes and gene-level interactions. Within this paradigm, we define five natural language tasks (cell type annotation, captioning, generation, perturbation prediction, and scientific QA) that probe core reasoning capabilities in cellular biology. To overcome the limitations of brittle string-matching metrics, we introduce knowledge-augmented evaluation, which incorporates external ontologies, marker databases, and scientific literature to support biologically faithful and interpretable judgments. Experiments and analysis across both general-purpose and domain-specialized LLMs demonstrate that (i) under the Virtual Cell unified evaluation paradigm, current models achieve uneven performance on biologically complex tasks, particularly those demanding mechanistic or causal understanding; and (ii) our knowledge-augmented evaluation framework ensures biological correctness, provides interpretable, evidence-grounded rationales, and achieves high discriminative capacity, overcoming the brittleness and opacity of conventional metrics. SC-Arena thus provides a unified and interpretable framework for assessing LLMs in single-cell biology, pointing toward the development of biology-aligned, generalizable foundation models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、知識発見と推論のための新たな能力を提供する科学研究にますます応用されている。
既存のベンチマークはタスク間で断片化され、実世界の利用から分岐する多重選択分類のような形式を採用し、解釈可能性や生物学的基盤を欠くメトリクスに依存している。
本稿では,単一セル基盤モデルに適した自然言語評価フレームワークSC-ARENAを提案する。
SC-ARENAは、固有の属性と遺伝子レベルの相互作用の両方を表現して評価対象を統一する仮想セル抽象化を形式化する。
本パラダイムでは,細胞生物学のコア推論能力を探索する5つの自然言語タスク(細胞型アノテーション,キャプション,生成,摂動予測,科学的QA)を定義する。
脆弱な文字列マッチング指標の限界を克服するために,外部オントロジー,マーカーデータベース,科学文献を組み込んだ知識強化評価を導入し,生物学的に忠実で解釈可能な判断を支援する。
汎用LLMおよびドメイン特化LDMの実験と解析
(i)Virtual Cell統合評価パラダイムの下では、現在のモデルは、特に機械的・因果的理解を必要とする、生物学的に複雑なタスクにおいて不均一なパフォーマンスを達成する。
(二)我々の知識増強評価枠組みは生物学的正当性を保証し、解釈可能な根拠的根拠を提供し、従来の指標の脆さと不透明さを克服し、高い識別能力を達成する。
したがって、SC-Arenaは単一細胞生物学におけるLCMの評価のための統一的で解釈可能なフレームワークを提供し、生物学に準拠した一般化可能な基盤モデルの開発を指している。
関連論文リスト
- BABE: Biology Arena BEnchmark [51.53220868983288]
BABEは、生物学的AIシステムの実験的推論能力を評価するために設計されたベンチマークである。
われわれのベンチマークは、AIシステムが科学者を実践するのと同じように、いかにうまく判断できるかを評価するための堅牢なフレームワークを提供する。
論文 参考訳(メタデータ) (2026-02-05T16:39:20Z) - SciHorizon-GENE: Benchmarking LLM for Life Sciences Inference from Gene Knowledge to Functional Understanding [30.790301729371475]
大規模言語モデル (LLM) は、特に知識駆動型解釈タスクにおいて、生物医学研究において期待が高まりつつあることを示している。
SciHorizon-GENE(SciHorizon-GENE)は、生物データベースから構築された大規模遺伝子中心のベンチマークである。
このベンチマークは、190万以上のヒト遺伝子に対するキュレートされた知識を統合し、多様な遺伝子から機能への推論シナリオをカバーする540万以上の質問を含んでいる。
論文 参考訳(メタデータ) (2026-01-19T08:06:35Z) - Learning Cell-Aware Hierarchical Multi-Modal Representations for Robust Molecular Modeling [74.25438319700929]
分子と細胞応答の局所的グローバル依存性をモデル化する堅牢なフレームワークであるCHMR(Cell-aware Hierarchical Multi-modal Representations)を提案する。
728タスクにまたがる9つの公開ベンチマークで評価され、CHMRは最先端のベースラインを上回っている。
その結果, 階層認識型マルチモーダル学習による分子表現の信頼性, 生物学的基盤化の利点が示された。
論文 参考訳(メタデータ) (2025-11-26T07:15:00Z) - Discovering Interpretable Biological Concepts in Single-cell RNA-seq Foundation Models [3.810388351528255]
シングルセルRNA-seqファンデーションモデルは、下流タスクでは高いパフォーマンスを達成するが、ブラックボックスのままである。
近年の研究では、疎辞書学習が深層学習モデルから概念を抽出できることが示されている。
シングルセルRNA-seqモデルのための新しい概念ベースの解釈可能性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T08:52:55Z) - Contrastive Learning Enhances Language Model Based Cell Embeddings for Low-Sample Single Cell Transcriptomics [3.7907528918903797]
大規模言語モデル(LLM)は、自然言語処理や生成、コンピュータビジョン、マルチモーダル学習といった分野にまたがるリッチな表現を生成する能力を示している。
本稿では、単一セルRNAシークエンシング(scRNA-seq)とLLMを統合し、知識インフォームド遺伝子埋め込みを導出する計算フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-28T00:45:39Z) - CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。
我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文 参考訳(メタデータ) (2025-05-09T06:47:23Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - SylloBio-NLI: Evaluating Large Language Models on Biomedical Syllogistic Reasoning [3.3903891679981593]
SylloBio-NLIは自然言語推論のための多様なシロメトリクスを体系的にインスタンス化するフレームワークである
有効結論の特定と28のシロメトリックスキーム間の証拠の抽出について,Large Language Models (LLMs) の評価を行った。
バイオメディカル・シロジック推論はゼロショットLLMでは特に困難であり, 一般化したモダスポネンでは70%, 解離性シロジズムでは23%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-18T12:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。