Fugu-MT 論文翻訳(概要): SC-Arena: A Natural Language Benchmark for Single-Cell Reasoning with Knowledge-Augmented Evaluation

論文の概要: SC-Arena: A Natural Language Benchmark for Single-Cell Reasoning with Knowledge-Augmented Evaluation

arxiv url: http://arxiv.org/abs/2602.23199v1
Date: Thu, 26 Feb 2026 16:50:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.788475
Title: SC-Arena: A Natural Language Benchmark for Single-Cell Reasoning with Knowledge-Augmented Evaluation
Title（参考訳）: SC-Arena:知識付加評価によるシングルセル推論のための自然言語ベンチマーク
Authors: Jiahao Zhao, Feng Jiang, Shaowei Qin, Zhonghui Zhang, Junhao Liu, Guibing Guo, Hamid Alinejad-Rokny, Min Yang,
Abstract要約: 本稿では,単一セル基盤モデルに適した自然言語評価フレームワークSC-ARENAを提案する。 SC-ARENAは、固有の属性と遺伝子レベルの相互作用の両方を表現して評価対象を統一する仮想セル抽象化を形式化する。
参考スコア（独自算出の注目度）: 24.956743572453153
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are increasingly applied in scientific research, offering new capabilities for knowledge discovery and reasoning. In single-cell biology, however, evaluation practices for both general and specialized LLMs remain inadequate: existing benchmarks are fragmented across tasks, adopt formats such as multiple-choice classification that diverge from real-world usage, and rely on metrics lacking interpretability and biological grounding. We present SC-ARENA, a natural language evaluation framework tailored to single-cell foundation models. SC-ARENA formalizes a virtual cell abstraction that unifies evaluation targets by representing both intrinsic attributes and gene-level interactions. Within this paradigm, we define five natural language tasks (cell type annotation, captioning, generation, perturbation prediction, and scientific QA) that probe core reasoning capabilities in cellular biology. To overcome the limitations of brittle string-matching metrics, we introduce knowledge-augmented evaluation, which incorporates external ontologies, marker databases, and scientific literature to support biologically faithful and interpretable judgments. Experiments and analysis across both general-purpose and domain-specialized LLMs demonstrate that (i) under the Virtual Cell unified evaluation paradigm, current models achieve uneven performance on biologically complex tasks, particularly those demanding mechanistic or causal understanding; and (ii) our knowledge-augmented evaluation framework ensures biological correctness, provides interpretable, evidence-grounded rationales, and achieves high discriminative capacity, overcoming the brittleness and opacity of conventional metrics. SC-Arena thus provides a unified and interpretable framework for assessing LLMs in single-cell biology, pointing toward the development of biology-aligned, generalizable foundation models.
Abstract（参考訳）: 大規模言語モデル(LLM)は、知識発見と推論のための新たな能力を提供する科学研究にますます応用されている。既存のベンチマークはタスク間で断片化され、実世界の利用から分岐する多重選択分類のような形式を採用し、解釈可能性や生物学的基盤を欠くメトリクスに依存している。本稿では,単一セル基盤モデルに適した自然言語評価フレームワークSC-ARENAを提案する。 SC-ARENAは、固有の属性と遺伝子レベルの相互作用の両方を表現して評価対象を統一する仮想セル抽象化を形式化する。本パラダイムでは,細胞生物学のコア推論能力を探索する5つの自然言語タスク(細胞型アノテーション,キャプション,生成,摂動予測,科学的QA)を定義する。脆弱な文字列マッチング指標の限界を克服するために,外部オントロジー,マーカーデータベース,科学文献を組み込んだ知識強化評価を導入し,生物学的に忠実で解釈可能な判断を支援する。汎用LLMおよびドメイン特化LDMの実験と解析 (i)Virtual Cell統合評価パラダイムの下では、現在のモデルは、特に機械的・因果的理解を必要とする、生物学的に複雑なタスクにおいて不均一なパフォーマンスを達成する。 (二)我々の知識増強評価枠組みは生物学的正当性を保証し、解釈可能な根拠的根拠を提供し、従来の指標の脆さと不透明さを克服し、高い識別能力を達成する。したがって、SC-Arenaは単一細胞生物学におけるLCMの評価のための統一的で解釈可能なフレームワークを提供し、生物学に準拠した一般化可能な基盤モデルの開発を指している。

関連論文リスト

BABE: Biology Arena BEnchmark [51.53220868983288]
BABEは、生物学的AIシステムの実験的推論能力を評価するために設計されたベンチマークである。われわれのベンチマークは、AIシステムが科学者を実践するのと同じように、いかにうまく判断できるかを評価するための堅牢なフレームワークを提供する。
論文参考訳（メタデータ） (2026-02-05T16:39:20Z)
SciHorizon-GENE: Benchmarking LLM for Life Sciences Inference from Gene Knowledge to Functional Understanding [30.790301729371475]
大規模言語モデル (LLM) は、特に知識駆動型解釈タスクにおいて、生物医学研究において期待が高まりつつあることを示している。 SciHorizon-GENE(SciHorizon-GENE)は、生物データベースから構築された大規模遺伝子中心のベンチマークである。このベンチマークは、190万以上のヒト遺伝子に対するキュレートされた知識を統合し、多様な遺伝子から機能への推論シナリオをカバーする540万以上の質問を含んでいる。
論文参考訳（メタデータ） (2026-01-19T08:06:35Z)
Generative Human-Object Interaction Detection via Differentiable Cognitive Steering of Multi-modal LLMs [85.69785384599827]
人間と物体の相互作用(Human-object Interaction、HOI)の検出は、人と物体のペアとそれらの相互作用を局在させることを目的としている。既存のメソッドはクローズドワールドの仮定の下で動作し、タスクを未定義の小さな動詞集合上の分類問題として扱う。本稿では,閉集合分類タスクから開語彙生成問題へのHOI検出を再構成する新しい生成推論・ステアブル知覚フレームワークGRASP-HOを提案する。
論文参考訳（メタデータ） (2025-12-19T14:41:50Z)
Learning Cell-Aware Hierarchical Multi-Modal Representations for Robust Molecular Modeling [74.25438319700929]
分子と細胞応答の局所的グローバル依存性をモデル化する堅牢なフレームワークであるCHMR(Cell-aware Hierarchical Multi-modal Representations)を提案する。 728タスクにまたがる9つの公開ベンチマークで評価され、CHMRは最先端のベースラインを上回っている。その結果, 階層認識型マルチモーダル学習による分子表現の信頼性, 生物学的基盤化の利点が示された。
論文参考訳（メタデータ） (2025-11-26T07:15:00Z)
Discovering Interpretable Biological Concepts in Single-cell RNA-seq Foundation Models [3.810388351528255]
シングルセルRNA-seqファンデーションモデルは、下流タスクでは高いパフォーマンスを達成するが、ブラックボックスのままである。近年の研究では、疎辞書学習が深層学習モデルから概念を抽出できることが示されている。シングルセルRNA-seqモデルのための新しい概念ベースの解釈可能性フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-29T08:52:55Z)
Contrastive Learning Enhances Language Model Based Cell Embeddings for Low-Sample Single Cell Transcriptomics [3.7907528918903797]
大規模言語モデル(LLM)は、自然言語処理や生成、コンピュータビジョン、マルチモーダル学習といった分野にまたがるリッチな表現を生成する能力を示している。本稿では、単一セルRNAシークエンシング(scRNA-seq)とLLMを統合し、知識インフォームド遺伝子埋め込みを導出する計算フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-28T00:45:39Z)
CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文参考訳（メタデータ） (2025-05-09T06:47:23Z)
Contextualizing biological perturbation experiments through language [3.704686482174365]
PerturbQAは摂動実験に対する構造化推論のベンチマークである。我々は、摂動をモデル化するための最先端の機械学習と統計的アプローチを評価する。本稿では,サマー(SUMMarize,retrievE, answeR),シンプルなドメインインフォームドLLMフレームワークを紹介する。
論文参考訳（メタデータ） (2025-02-28T18:15:31Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文参考訳（メタデータ） (2024-11-10T16:40:27Z)
SylloBio-NLI: Evaluating Large Language Models on Biomedical Syllogistic Reasoning [3.3903891679981593]
SylloBio-NLIは自然言語推論のための多様なシロメトリクスを体系的にインスタンス化するフレームワークである有効結論の特定と28のシロメトリックスキーム間の証拠の抽出について,Large Language Models (LLMs) の評価を行った。バイオメディカル・シロジック推論はゼロショットLLMでは特に困難であり, 一般化したモダスポネンでは70%, 解離性シロジズムでは23%の精度が得られた。
論文参考訳（メタデータ） (2024-10-18T12:02:41Z)
GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。 GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文参考訳（メタデータ） (2024-06-01T08:01:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。