Fugu-MT 論文翻訳(概要): BioPulse-QA: A Dynamic Biomedical Question-Answering Benchmark for Evaluating Factuality, Robustness, and Bias in Large Language Models

論文の概要: BioPulse-QA: A Dynamic Biomedical Question-Answering Benchmark for Evaluating Factuality, Robustness, and Bias in Large Language Models

arxiv url: http://arxiv.org/abs/2601.12632v1
Date: Mon, 19 Jan 2026 00:38:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:22.711379
Title: BioPulse-QA: A Dynamic Biomedical Question-Answering Benchmark for Evaluating Factuality, Robustness, and Bias in Large Language Models
Title（参考訳）: BioPulse-QA: 大規模言語モデルにおけるファクタリティ,ロバスト性,バイアス評価のための動的バイオメディカル質問応答ベンチマーク
Authors: Kriti Bhattarai, Vipina K. Keloth, Donald Wright, Andrew Loza, Yang Ren, Hua Xu,
Abstract要約: 本稿では,新たに公開されたバイオメディカル文書からの質問に答える上で,大規模言語モデル(LLM)を評価するベンチマークであるBioPulse-QAを紹介する。 GPT-o1, GPT-o1, Gemini-2.0-Flash, LLaMA-3.1 8B の4つの LLM の評価を行った。
参考スコア（独自算出の注目度）: 7.8780007697387235
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Objective: Large language models (LLMs) are increasingly applied in biomedical settings, and existing benchmark datasets have played an important role in supporting model development and evaluation. However, these benchmarks often have limitations. Many rely on static or outdated datasets that fail to capture the dynamic, context-rich, and high-stakes nature of biomedical knowledge. They also carry increasing risk of data leakage due to overlap with model pretraining corpora and often overlook critical dimensions such as robustness to linguistic variation and potential demographic biases. Materials and Methods: To address these gaps, we introduce BioPulse-QA, a benchmark that evaluates LLMs on answering questions from newly published biomedical documents including drug labels, trial protocols, and clinical guidelines. BioPulse-QA includes 2,280 expert-verified question answering (QA) pairs and perturbed variants, covering both extractive and abstractive formats. We evaluate four LLMs - GPT-4o, GPT-o1, Gemini-2.0-Flash, and LLaMA-3.1 8B Instruct - released prior to the publication dates of the benchmark documents. Results: GPT-o1 achieves the highest relaxed F1 score (0.92), followed by Gemini-2.0-Flash (0.90) on drug labels. Clinical trials are the most challenging source, with extractive F1 scores as low as 0.36. Discussion and Conclusion: Performance differences are larger for paraphrasing than for typographical errors, while bias testing shows negligible differences. BioPulse-QA provides a scalable and clinically relevant framework for evaluating biomedical LLMs.
Abstract（参考訳）: 目的: 大規模言語モデル(LLM)は、バイオメディカルな設定にますます適用され、既存のベンチマークデータセットは、モデルの開発と評価をサポートする上で重要な役割を果たす。しかし、これらのベンチマークには制限があることが多い。多くは静的または時代遅れのデータセットに依存しており、バイオメディカルな知識の動的な、文脈に富んだ、そして高度な性質を捉えていない。また、モデル事前学習コーパスとの重複によるデータ漏洩のリスクも増加し、言語的変動に対する堅牢性や潜在的な人口統計バイアスといった重要な側面をしばしば見落としている。材料と方法: このギャップに対処するため, 薬物ラベル, トライアルプロトコル, 臨床ガイドラインを含む, 新たに公開されたバイオメディカル文書からの質問に答えるためのLCMを評価するベンチマークであるBioPulse-QAを紹介する。 BioPulse-QAには,2,280名の専門家が検証した質問応答(QA)ペアと,抽出形式と抽象形式の両方をカバーする変種が含まれている。 GPT-4o, GPT-o1, Gemini-2.0-Flash, LLaMA-3.1 8B の4つの LLM の評価を行った。結果: GPT-o1はF1スコア (0.92) が最も緩やかであり, 薬物ラベル上ではGemini-2.0-Flash (0.90) が続く。臨床試験は最も難しい情報源であり、抽出されたF1スコアは0.36である。議論と結論: 性能差は言い換えればタイポグラフィの誤りよりも大きいが、バイアステストは無視できる違いを示している。 BioPulse-QAは、バイオメディカルLLMを評価するためのスケーラブルで臨床的に関係のあるフレームワークを提供する。

関連論文リスト

EQ-5D Classification Using Biomedical Entity-Enriched Pre-trained Language Models and Multiple Instance Learning [0.42970700836450487]
健康経済学において、体系的な文献レビューは、EQ-5Dを使用する出版物の正しい識別に依存している。大量の科学文献の手作業によるスクリーニングは、時間を要する、エラーを起こし、一貫性がない。本研究では,汎用言語モデル(BERT)とドメイン固有言語モデル(SciBERT, BioBERT)の微調整について検討する。
論文参考訳（メタデータ） (2026-01-30T20:10:34Z)
A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-29T18:48:21Z)
CaresAI at BioCreative IX Track 1 -- LLM for Biomedical QA [3.222047196930981]
大規模言語モデル(LLM)は、様々な領域にわたる正確な質問応答において、ますます明白になっている。本稿では,BioCreative IX共有タスクのMedHopQAトラックへのアプローチについて述べる。短い解答と長い解答を組み合わせた微調整、短い解答のみ、長い解答のみの3つの実験的な設定が検討されている。
論文参考訳（メタデータ） (2025-08-31T11:40:02Z)
Interpreting Biomedical VLMs on High-Imbalance Out-of-Distributions: An Insight into BiomedCLIP on Radiology [0.0]
我々は、高度にバランスの取れない、アウト・オブ・ディストリビューションな医療データセットに適用した場合、BiomedCLIPの限界を分析する。ゼロショット設定下でのモデルは,すべてのラベルを過度に予測し,精度の低下とクラス間分離性に繋がることを示す。我々は、現実の環境で信頼性と適用性を高めるために、モデルの慎重な適応の必要性を強調します。
論文参考訳（メタデータ） (2025-06-17T02:59:42Z)
CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文参考訳（メタデータ） (2025-05-09T06:47:23Z)
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。最先端のMLLMのベンチマークでは、ピーク性能は53%であった。チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文参考訳（メタデータ） (2025-03-17T17:33:10Z)
Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training [10.701353329227722]
学術文献から高品質なテキストトレーニングデータの蒸留を自動化する枠組みを提案する。われわれのアプローチは、バイオメディカル領域とより密接に一致した質問を自己評価し、生成する。本手法は,生命科学領域の事前学習モデルと比較して,質問応答タスクを大幅に改善する。
論文参考訳（メタデータ） (2025-01-25T07:20:44Z)
BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers [48.21255861863282]
BMRetrieverは、バイオメディカル検索を強化するための一連の密集したレトリバーである。 BMRetrieverは強力なパラメータ効率を示し、410Mの派生型はベースラインを最大11.7倍まで上回っている。
論文参考訳（メタデータ） (2024-04-29T05:40:08Z)
Benchmarking large language models for biomedical natural language processing applications and recommendations [22.668383945059762]
大規模言語モデル(LLM)は、一般的なドメインにおいて有望であることを示している。我々は、そのゼロショット、少数ショット、微調整性能を従来のBERTモデルやBARTモデルと比較する。 LLM出力の不足情報や幻覚といった問題を見つけます。
論文参考訳（メタデータ） (2023-05-10T13:40:06Z)
Evaluation of ChatGPT Family of Models for Biomedical Reasoning and Classification [6.163540203358258]
本研究では,大規模言語モデル(LLM)の性能について,質問応答以外のバイオメディカルな課題について検討した。 OpenAI APIの公開インターフェースに患者データを渡すことはできないため、モデルのパフォーマンスを10000以上のサンプルで評価した。 2つの基本的なNLPタスクの微調整が最良戦略であることがわかった。
論文参考訳（メタデータ） (2023-04-05T15:11:25Z)
Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文参考訳（メタデータ） (2022-04-10T21:46:52Z)
CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文参考訳（メタデータ） (2021-06-15T12:25:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。