論文の概要: SciHorizon-GENE: Benchmarking LLM for Life Sciences Inference from Gene Knowledge to Functional Understanding
- arxiv url: http://arxiv.org/abs/2601.12805v1
- Date: Mon, 19 Jan 2026 08:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.799313
- Title: SciHorizon-GENE: Benchmarking LLM for Life Sciences Inference from Gene Knowledge to Functional Understanding
- Title(参考訳): SciHorizon-GENE:遺伝子知識から機能理解への生命科学推論のためのLLMのベンチマーク
- Authors: Xiaohan Huang, Meng Xiao, Chuan Qin, Qingqing Long, Jinmiao Chen, Yuanchun Zhou, Hengshu Zhu,
- Abstract要約: 大規模言語モデル (LLMs) は、生物医学研究において期待されている。
遺伝子レベルでの知識から機能的理解まで、確実に推論できる能力は、いまだに未熟である。
SciHorizon-GENE(SciHorizon-GENE)は、生物データベースから構築された大規模遺伝子中心のベンチマークである。
- 参考スコア(独自算出の注目度): 30.790301729371475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown growing promise in biomedical research, particularly for knowledge-driven interpretation tasks. However, their ability to reliably reason from gene-level knowledge to functional understanding, However, their ability to reliably reason from gene-level knowledge to functional understanding, a core requirement for knowledge-enhanced cell atlas interpretation, remains largely underexplored. To address this gap, we introduce SciHorizon-GENE, a large-scale gene-centric benchmark constructed from authoritative biological databases. The benchmark integrates curated knowledge for over 190K human genes and comprises more than 540K questions covering diverse gene-to-function reasoning scenarios relevant to cell type annotation, functional interpretation, and mechanism-oriented analysis. Motivated by behavioral patterns observed in preliminary examinations, SciHorizon-GENE evaluates LLMs along four biologically critical perspectives: research attention sensitivity, hallucination tendency, answer completeness, and literature influence, explicitly targeting failure modes that limit the safe adoption of LLMs in biological interpretation pipelines. We systematically evaluate a wide range of state-of-the-art general-purpose and biomedical LLMs, revealing substantial heterogeneity in gene-level reasoning capabilities and persistent challenges in generating faithful, complete, and literature-grounded functional interpretations. Our benchmark establishes a systematic foundation for analyzing LLM behavior at the gene scale and offers insights for model selection and development, with direct relevance to knowledge-enhanced biological interpretation.
- Abstract(参考訳): 大規模言語モデル (LLM) は、特に知識駆動型解釈タスクにおいて、生物医学研究において期待が高まりつつあることを示している。
しかしながら、遺伝子レベルでの知識から機能的理解まで、確実に推論できる能力は、遺伝子レベルでの知識から機能的理解への確実な推論能力は、知識によって強化された細胞アトラス解釈のコア要件である。
このギャップに対処するために、権威的な生物学的データベースから構築された大規模遺伝子中心のベンチマークであるSciHorizon-GENEを紹介する。
このベンチマークは、190万以上のヒト遺伝子に対するキュレートされた知識を統合し、細胞型アノテーション、機能的解釈、およびメカニズム指向の分析に関連する様々な遺伝子から機能への推論シナリオをカバーする540万以上の質問を含む。
SciHorizon-GENEは、予備試験で観察された行動パターンにより、生物学的に重要な4つの視点:研究注意の感度、幻覚傾向、答えの完全性、文学の影響、生物学的解釈パイプラインにおけるLLMの安全な導入を制限する障害モードを明示的にターゲットとして、LSMを評価する。
我々は,遺伝子レベルでの推論能力と,忠実で完全かつ文学的な機能的解釈を創出する上での永続的な課題を明らかにするとともに,多種多様な汎用的・生物医学的LLMを体系的に評価した。
本ベンチマークは,遺伝子レベルでのLCMの行動解析のための体系的基盤を確立し,モデル選択と開発に関する知見を提供する。
関連論文リスト
- Contrastive Learning Enhances Language Model Based Cell Embeddings for Low-Sample Single Cell Transcriptomics [3.7907528918903797]
大規模言語モデル(LLM)は、自然言語処理や生成、コンピュータビジョン、マルチモーダル学習といった分野にまたがるリッチな表現を生成する能力を示している。
本稿では、単一セルRNAシークエンシング(scRNA-seq)とLLMを統合し、知識インフォームド遺伝子埋め込みを導出する計算フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-28T00:45:39Z) - Contextualizing biological perturbation experiments through language [3.704686482174365]
PerturbQAは摂動実験に対する構造化推論のベンチマークである。
我々は、摂動をモデル化するための最先端の機械学習と統計的アプローチを評価する。
本稿では,サマー(SUMMarize,retrievE, answeR),シンプルなドメインインフォームドLLMフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-02-28T18:15:31Z) - BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning [49.487327661584686]
実際の研究から5.1Kの複雑な経路問題を持つデータセットであるBioMazeを紹介する。
CoT法やグラフ拡張推論法などの手法の評価は,LLMが経路推論に苦慮していることを示している。
そこで本稿では,インタラクティブなサブグラフベースのナビゲーションにより推論を強化するLLMエージェントであるPathSeekerを提案する。
論文 参考訳(メタデータ) (2025-02-23T17:38:10Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Genomic Language Models: Opportunities and Challenges [0.2912705470788796]
ゲノム言語モデル(gLM)は、ゲノムの理解を大幅に前進させる可能性がある。
本稿では,機能制約予測,シーケンス設計,伝達学習など,gLMのキーとなる応用について紹介する。
本稿では,gLMの開発と評価について論じる。
論文 参考訳(メタデータ) (2024-07-16T06:57:35Z) - Understanding Biology in the Age of Artificial Intelligence [4.299566787216408]
現代生命科学の研究は、生物システムをモデル化するための人工知能のアプローチにますます依存している。
機械学習(ML)モデルは、大規模で複雑なデータセットのパターンを特定するのに有用であるが、生物学におけるその広範な応用は、従来の科学的調査方法から大きく逸脱している。
ここでは,生物現象をモデル化し,科学的知識を進化させるために,MLシステムの設計と応用を導く一般的な原理を同定する。
論文 参考訳(メタデータ) (2024-03-06T23:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。