Fugu-MT 論文翻訳(概要): PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology

論文の概要: PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology

arxiv url: http://arxiv.org/abs/2603.01343v1
Date: Mon, 02 Mar 2026 00:50:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.637147
Title: PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology
Title（参考訳）: PanCanBench: 膵腫瘍学における大規模言語モデル評価のための総合ベンチマーク
Authors: Yimin Zhao, Sheela R. Damle, Simone E. Dekker, Scott Geng, Karly Williams Silva, Jesse J Hubbard, Manuel F Fernandez, Fatima Zelada-Arenas, Alejandra Alvarez, Brianne Flores, Alexis Rodriguez, Stephen Salerno, Carrie Wright, Zihao Wang, Pang Wei Koh, Jeffrey T. Leek,
Abstract要約: 大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。 LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
参考スコア（独自算出の注目度）: 48.732366302949515
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have achieved expert-level performance on standardized examinations, yet multiple-choice accuracy poorly reflects real-world clinical utility and safety. As patients and clinicians increasingly use LLMs for guidance on complex conditions such as pancreatic cancer, evaluation must extend beyond general medical knowledge. Existing frameworks, such as HealthBench, rely on simulated queries and lack disease-specific depth. Moreover, high rubric-based scores do not ensure factual correctness, underscoring the need to assess hallucinations. We developed a human-in-the-loop pipeline to create expert rubrics for de-identified patient questions from the Pancreatic Cancer Action Network (PanCAN). The resulting benchmark, PanCanBench, includes 3,130 question-specific criteria across 282 authentic patient questions. We evaluated 22 proprietary and open-source LLMs using an LLM-as-a-judge framework, measuring clinical completeness, factual accuracy, and web-search integration. Models showed substantial variation in rubric-based completeness, with scores ranging from 46.5% to 82.3%. Factual errors were common, with hallucination rates (the percentages of responses containing at least one factual error) ranging from 6.0% for Gemini-2.5 Pro and GPT-4o to 53.8% for Llama-3.1-8B. Importantly, newer reasoning-optimized models did not consistently improve factuality: although o3 achieved the highest rubric score, it produced inaccuracies more frequently than other GPT-family models. Web-search integration did not inherently guarantee better responses. The average score changed from 66.8% to 63.9% for Gemini-2.5 Pro and from 73.8% to 72.8% for GPT-5 when web search was enabled. Synthetic AI-generated rubrics inflated absolute scores by 17.9 points on average while generally maintaining similar relative ranking.
Abstract（参考訳）: 大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。患者や臨床医は膵癌などの複雑な疾患のガイダンスとしてLSMの使用が増えているため、評価は一般的な医学的知識を超えなければならない。 HealthBenchのような既存のフレームワークは、シミュレートされたクエリに依存しており、病気固有の深さを欠いている。さらに、高いルーリックベースのスコアは事実の正しさを保証せず、幻覚を評価する必要性を強調している。そこで我々は,膵癌行動ネットワーク (PanCAN) から, 未確認の患者問合せのための専門家用ルーリックを作成するための, ループ内人間パイプラインを開発した。結果のベンチマークであるPanCanBenchには、282の患者質問に対して3,130の質問特化基準が含まれている。 LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。モデルではルーリックベースの完全性が大きく変化し、スコアは46.5%から82.3%まで変化した。実ミスは一般的であり、幻覚率(少なくとも1つの事実誤りを含む反応の割合)はジェミニ2.5 Proの6.0%からラマ-3.1-8Bの53.8%までであった。重要なことに、新しい推論最適化モデルは、常に事実性を改善しなかった: o3は最も高いルーリックスコアを獲得したが、他のGPTファミリーモデルよりも不正確な結果が得られた。ウェブ検索の統合は、本質的にはより良い応答を保証するものではない。 Gemini-2.5 Pro の平均スコアは 66.8% から 63.9% に変化し、ウェブ検索が有効になったとき 73.8% から 72.8% に変化した。合成AI生成ルーブリックは、平均17.9ポイントの絶対スコアを膨らませ、概して同様の相対ランクを維持した。

論文の概要: PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology

関連論文リスト