論文の概要: CGBench: Benchmarking Language Model Scientific Reasoning for Clinical Genetics Research
- arxiv url: http://arxiv.org/abs/2510.11985v1
- Date: Mon, 13 Oct 2025 22:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.107963
- Title: CGBench: Benchmarking Language Model Scientific Reasoning for Clinical Genetics Research
- Title(参考訳): CGBench: 臨床遺伝学研究のためのベンチマーク言語モデル科学推論
- Authors: Owen Queen, Harrison G. Zhang, James Zou,
- Abstract要約: ジェネレーティブ言語モデル(LM)は、臨床的に作用可能な洞察への基礎研究の翻訳を容易にする。
CGBenchは、科学出版物のLMの推論能力をテストするベンチマークである。
我々は8つの異なるLMを試験し、モデルが有望である一方で、文学的解釈にかなりのギャップがあることを見出した。
- 参考スコア(独自算出の注目度): 25.578430277176988
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Variant and gene interpretation are fundamental to personalized medicine and translational biomedicine. However, traditional approaches are manual and labor-intensive. Generative language models (LMs) can facilitate this process, accelerating the translation of fundamental research into clinically-actionable insights. While existing benchmarks have attempted to quantify the capabilities of LMs for interpreting scientific data, these studies focus on narrow tasks that do not translate to real-world research. To meet these challenges, we introduce CGBench, a robust benchmark that tests reasoning capabilities of LMs on scientific publications. CGBench is built from ClinGen, a resource of expert-curated literature interpretations in clinical genetics. CGBench measures the ability to 1) extract relevant experimental results following precise protocols and guidelines, 2) judge the strength of evidence, and 3) categorize and describe the relevant outcome of experiments. We test 8 different LMs and find that while models show promise, substantial gaps exist in literature interpretation, especially on fine-grained instructions. Reasoning models excel in fine-grained tasks but non-reasoning models are better at high-level interpretations. Finally, we measure LM explanations against human explanations with an LM judge approach, revealing that models often hallucinate or misinterpret results even when correctly classifying evidence. CGBench reveals strengths and weaknesses of LMs for precise interpretation of scientific publications, opening avenues for future research in AI for clinical genetics and science more broadly.
- Abstract(参考訳): 変異と遺伝子解釈は、パーソナライズドメディシンと翻訳バイオメディシンの基礎である。
しかし、伝統的なアプローチは手作業と労働集約である。
ジェネレーティブ言語モデル(LM)はこのプロセスを促進し、基礎研究の臨床的に実行可能な洞察への翻訳を加速させる。
既存のベンチマークでは、科学データを解釈するためのLMの能力の定量化が試みられているが、これらの研究は現実世界の研究に翻訳されない狭いタスクに焦点を当てている。
これらの課題に対処するため、科学誌上でのLMの推論能力をテストする頑健なベンチマークであるCGBenchを紹介した。
CGBenchは、臨床遺伝学の専門家による文献解釈のリソースであるClinGenから作られている。
CGBenchは、その能力を測定する
1) 厳密なプロトコル及びガイドラインに従って、関連する実験結果の抽出。
2 証拠の強さを判断し、
3)実験の結果を分類し,記述する。
我々は8つの異なるLMを試験し、モデルが有望である一方で、文学解釈、特にきめ細かい命令にかなりのギャップが存在することを発見した。
推論モデルはきめ細かなタスクでは優れているが、非推論モデルは高レベルの解釈では優れている。
最後に、人間の説明に対するLM説明をLM判断法を用いて測定し、証拠を正しく分類しても、モデルが幻覚または誤解釈することが多いことを明らかにした。
CGBenchは、科学出版物の正確な解釈のためのLMの長所と短所を明らかにし、臨床遺伝学と科学のためのAI研究のための道を開く。
関連論文リスト
- ExpVid: A Benchmark for Experiment Video Understanding & Reasoning [65.17173232816818]
科学実験ビデオ上でMLLMを体系的に評価する最初のベンチマークであるExpVidを紹介する。
ExpVid 上で 19 個のMLLM を評価し, 粗粒度認識に優れる一方で, 詳細さの曖昧化, 時間経過による状態変化の追跡, 実験手順と科学的成果のリンクに苦慮していることがわかった。
この結果から,特に高次推論において,プロプライエタリモデルとオープンソースモデルとの顕著なパフォーマンスギャップが明らかとなった。
論文 参考訳(メタデータ) (2025-10-13T16:45:28Z) - MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。
最先端のMLLMのベンチマークでは、ピーク性能は53%であった。
チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文 参考訳(メタデータ) (2025-03-17T17:33:10Z) - Improving Scientific Hypothesis Generation with Knowledge Grounded Large Language Models [20.648157071328807]
大規模言語モデル(LLM)は、既存の知識を分析することによって、新しい研究の方向性を特定することができる。
LLMは幻覚を発生させる傾向がある。
我々は,知識グラフから外部構造的知識を統合することで,LLM仮説の生成を促進するシステムKG-CoIを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:50:00Z) - Generative causal testing to bridge data-driven models and scientific theories in language neuroscience [82.995061475971]
脳における言語選択性の簡潔な説明を生成するためのフレームワークである生成因果テスト(GCT)を提案する。
GCTは機能的選択性に類似した脳領域の細粒度の違いを識別できることを示す。
論文 参考訳(メタデータ) (2024-10-01T15:57:48Z) - Large Language Models as Biomedical Hypothesis Generators: A Comprehensive Evaluation [15.495976478018264]
大規模言語モデル(LLM)は、知識相互作用に革命をもたらす有望なツールとして登場した。
バイオメディカル文献から背景と仮説のペアのデータセットを構築し、トレーニング、観察、および見えないテストセットに分割する。
最上位モデルの仮説生成能力を、ゼロショット、少数ショット、微調整設定で評価する。
論文 参考訳(メタデータ) (2024-07-12T02:55:13Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - CausalGym: Benchmarking causal interpretability methods on linguistic
tasks [52.61917615039112]
CausalGymを使って、モデル動作に因果的に影響を及ぼす解釈可能性手法のベンチマークを行う。
ピチアモデル (14M--6.9B) について検討し, 幅広い解釈可能性手法の因果効果について検討した。
DASは他の手法よりも優れており、2つの困難な言語現象の学習軌跡の研究に利用している。
論文 参考訳(メタデータ) (2024-02-19T21:35:56Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - ExplainCPE: A Free-text Explanation Benchmark of Chinese Pharmacist
Examination [26.878606171228448]
既存の説明データセットは主に英語の一般的な知識に関する質問である。
有理性QAデータセットの生成における言語バイアスと医療資源の欠如に対処するために, ExplainCPEを提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:42Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。