論文の概要: BioPulse-QA: A Dynamic Biomedical Question-Answering Benchmark for Evaluating Factuality, Robustness, and Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.12632v1
- Date: Mon, 19 Jan 2026 00:38:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.711379
- Title: BioPulse-QA: A Dynamic Biomedical Question-Answering Benchmark for Evaluating Factuality, Robustness, and Bias in Large Language Models
- Title(参考訳): BioPulse-QA: 大規模言語モデルにおけるファクタリティ,ロバスト性,バイアス評価のための動的バイオメディカル質問応答ベンチマーク
- Authors: Kriti Bhattarai, Vipina K. Keloth, Donald Wright, Andrew Loza, Yang Ren, Hua Xu,
- Abstract要約: 本稿では,新たに公開されたバイオメディカル文書からの質問に答える上で,大規模言語モデル(LLM)を評価するベンチマークであるBioPulse-QAを紹介する。
GPT-o1, GPT-o1, Gemini-2.0-Flash, LLaMA-3.1 8B の4つの LLM の評価を行った。
- 参考スコア(独自算出の注目度): 7.8780007697387235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: Large language models (LLMs) are increasingly applied in biomedical settings, and existing benchmark datasets have played an important role in supporting model development and evaluation. However, these benchmarks often have limitations. Many rely on static or outdated datasets that fail to capture the dynamic, context-rich, and high-stakes nature of biomedical knowledge. They also carry increasing risk of data leakage due to overlap with model pretraining corpora and often overlook critical dimensions such as robustness to linguistic variation and potential demographic biases. Materials and Methods: To address these gaps, we introduce BioPulse-QA, a benchmark that evaluates LLMs on answering questions from newly published biomedical documents including drug labels, trial protocols, and clinical guidelines. BioPulse-QA includes 2,280 expert-verified question answering (QA) pairs and perturbed variants, covering both extractive and abstractive formats. We evaluate four LLMs - GPT-4o, GPT-o1, Gemini-2.0-Flash, and LLaMA-3.1 8B Instruct - released prior to the publication dates of the benchmark documents. Results: GPT-o1 achieves the highest relaxed F1 score (0.92), followed by Gemini-2.0-Flash (0.90) on drug labels. Clinical trials are the most challenging source, with extractive F1 scores as low as 0.36. Discussion and Conclusion: Performance differences are larger for paraphrasing than for typographical errors, while bias testing shows negligible differences. BioPulse-QA provides a scalable and clinically relevant framework for evaluating biomedical LLMs.
- Abstract(参考訳): 目的: 大規模言語モデル(LLM)は、バイオメディカルな設定にますます適用され、既存のベンチマークデータセットは、モデルの開発と評価をサポートする上で重要な役割を果たす。
しかし、これらのベンチマークには制限があることが多い。
多くは静的または時代遅れのデータセットに依存しており、バイオメディカルな知識の動的な、文脈に富んだ、そして高度な性質を捉えていない。
また、モデル事前学習コーパスとの重複によるデータ漏洩のリスクも増加し、言語的変動に対する堅牢性や潜在的な人口統計バイアスといった重要な側面をしばしば見落としている。
材料と方法: このギャップに対処するため, 薬物ラベル, トライアルプロトコル, 臨床ガイドラインを含む, 新たに公開されたバイオメディカル文書からの質問に答えるためのLCMを評価するベンチマークであるBioPulse-QAを紹介する。
BioPulse-QAには,2,280名の専門家が検証した質問応答(QA)ペアと,抽出形式と抽象形式の両方をカバーする変種が含まれている。
GPT-4o, GPT-o1, Gemini-2.0-Flash, LLaMA-3.1 8B の4つの LLM の評価を行った。
結果: GPT-o1はF1スコア (0.92) が最も緩やかであり, 薬物ラベル上ではGemini-2.0-Flash (0.90) が続く。
臨床試験は最も難しい情報源であり、抽出されたF1スコアは0.36である。
議論と結論: 性能差は言い換えればタイポグラフィの誤りよりも大きいが、バイアステストは無視できる違いを示している。
BioPulse-QAは、バイオメディカルLLMを評価するためのスケーラブルで臨床的に関係のあるフレームワークを提供する。
関連論文リスト
- CaresAI at BioCreative IX Track 1 -- LLM for Biomedical QA [3.222047196930981]
大規模言語モデル(LLM)は、様々な領域にわたる正確な質問応答において、ますます明白になっている。
本稿では,BioCreative IX共有タスクのMedHopQAトラックへのアプローチについて述べる。
短い解答と長い解答を組み合わせた微調整、短い解答のみ、長い解答のみの3つの実験的な設定が検討されている。
論文 参考訳(メタデータ) (2025-08-31T11:40:02Z) - Interpreting Biomedical VLMs on High-Imbalance Out-of-Distributions: An Insight into BiomedCLIP on Radiology [0.0]
我々は、高度にバランスの取れない、アウト・オブ・ディストリビューションな医療データセットに適用した場合、BiomedCLIPの限界を分析する。
ゼロショット設定下でのモデルは,すべてのラベルを過度に予測し,精度の低下とクラス間分離性に繋がることを示す。
我々は、現実の環境で信頼性と適用性を高めるために、モデルの慎重な適応の必要性を強調します。
論文 参考訳(メタデータ) (2025-06-17T02:59:42Z) - CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。
我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文 参考訳(メタデータ) (2025-05-09T06:47:23Z) - MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。
最先端のMLLMのベンチマークでは、ピーク性能は53%であった。
チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文 参考訳(メタデータ) (2025-03-17T17:33:10Z) - BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers [48.21255861863282]
BMRetrieverは、バイオメディカル検索を強化するための一連の密集したレトリバーである。
BMRetrieverは強力なパラメータ効率を示し、410Mの派生型はベースラインを最大11.7倍まで上回っている。
論文 参考訳(メタデータ) (2024-04-29T05:40:08Z) - Benchmarking large language models for biomedical natural language processing applications and recommendations [22.668383945059762]
大規模言語モデル(LLM)は、一般的なドメインにおいて有望であることを示している。
我々は、そのゼロショット、少数ショット、微調整性能を従来のBERTモデルやBARTモデルと比較する。
LLM出力の不足情報や幻覚といった問題を見つけます。
論文 参考訳(メタデータ) (2023-05-10T13:40:06Z) - Evaluation of ChatGPT Family of Models for Biomedical Reasoning and
Classification [6.163540203358258]
本研究では,大規模言語モデル(LLM)の性能について,質問応答以外のバイオメディカルな課題について検討した。
OpenAI APIの公開インターフェースに患者データを渡すことはできないため、モデルのパフォーマンスを10000以上のサンプルで評価した。
2つの基本的なNLPタスクの微調整が最良戦略であることがわかった。
論文 参考訳(メタデータ) (2023-04-05T15:11:25Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。