論文の概要: Benchmarking GPT-5 for biomedical natural language processing
- arxiv url: http://arxiv.org/abs/2509.04462v1
- Date: Thu, 28 Aug 2025 13:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-14 20:41:04.885285
- Title: Benchmarking GPT-5 for biomedical natural language processing
- Title(参考訳): バイオメディカル自然言語処理のためのベンチマークGPT-5
- Authors: Yu Hou, Zaifu Zhan, Rui Zhang,
- Abstract要約: GPT-5は総合ベンチマークで最強の成績を収めた。
MedQAでは、GPT-5の精度は94.1%に達し、それまで監督されていた芸術の状態を50点以上上回った。
抽出作業において、GPT-5は化学NERに大きな利益をもたらした。
- 参考スコア(独自算出の注目度): 11.560587960545625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid expansion of biomedical literature has heightened the need for scalable natural language processing (NLP) solutions. While GPT-4 substantially narrowed the gap with task-specific systems, especially in question answering, its performance across other domains remained uneven. We updated a standardized BioNLP benchmark to evaluate GPT-5 and GPT-4o under zero-, one-, and five-shot prompting across 12 datasets spanning six task families: named entity recognition, relation extraction, multi-label document classification, question answering, text summarization, and text simplification. Using fixed prompt templates, identical decoding parameters, and batch inference, we report primary metrics per dataset and include prior results for GPT-4, GPT-3.5, and LLaMA-2-13B for comparison. GPT-5 achieved the strongest overall benchmark performance, with macro-average scores rising to 0.557 under five-shot prompting versus 0.506 for GPT-4 and 0.508 for GPT-4o. On MedQA, GPT-5 reached 94.1% accuracy, exceeding the previous supervised state of the art by over fifty points, and attained parity with supervised systems on PubMedQA (0.734). In extraction tasks, GPT-5 delivered major gains in chemical NER (0.886 F1) and ChemProt relation extraction (0.616 F1), outperforming GPT-4 and GPT-4o, though summarization and disease NER still lagged behind domain-specific baselines. These results establish GPT-5 as a general-purpose model now offering deployment-ready performance for reasoning-oriented biomedical QA, while precision-critical extraction and evidence-dense summarization continue to favor fine-tuned or hybrid approaches. The benchmark delineates where simple prompting suffices and where retrieval-augmented or planning-based scaffolds are likely required, providing actionable guidance for BioNLP system design as frontier models advance.
- Abstract(参考訳): 生物医学文献の急速な拡大により、スケーラブルな自然言語処理(NLP)ソリューションの必要性が高まっている。
GPT-4はタスク固有のシステムとのギャップを大幅に狭めたが、他の領域での性能は不均一であった。
我々は,GPT-5とGPT-4oを0,1,5ショットで評価するために,標準化されたBioNLPベンチマークを更新し,エンティティ認識,関係抽出,複数ラベル文書分類,質問応答,テキスト要約,テキスト簡略化という,6つのタスクファミリにまたがる12のデータセットに対してプロンプトを行った。
GPT-4, GPT-3.5, LLaMA-2-13Bを比較対象として, 固定プロンプトテンプレート, 同一復号パラメータ, バッチ推論を用いて, データセット毎の一次指標を報告する。
GPT-5はGPT-4で0.506、GPT-4oで0.508、マクロ平均スコアは0.557まで上昇した。
MedQAでは、GPT-5は94.1%の精度に達し、従来の監督された状態を50点以上越え、PubMedQA (0.734)の監督されたシステムと同等になった。
抽出作業において、GPT-5は化学NER (0.886 F1) と化学ChemProt関係抽出 (0.616 F1) において大きな利益をもたらし、GPT-4 と GPT-4o を上回った。
これらの結果から, GPT-5は, 現在, 推論指向のバイオメディカルQAに展開可能な性能を提供する汎用モデルとして確立されている。
このベンチマークは、単純なプロンプトサフィスと、検索強化または計画ベースの足場が必要な場所を明確にし、フロンティアモデルが進行するにつれて、BioNLPシステム設計のための実用的なガイダンスを提供する。
関連論文リスト
- Benchmarking GPT-5 for Zero-Shot Multimodal Medical Reasoning in Radiology and Radiation Oncology [4.156123728258067]
GPT-5 と GPT-5-mini, GPT-5-nano を 3 つのタスクでゼロショット評価した。
全データセットにおいて、GPT-5はGPT-4oよりも高い精度を達成し、解剖学的に挑戦する領域では+200%まで上昇した。
GPT-5は、画像基底推論とドメイン固有の数値問題解決の両方において、GPT-4oよりも一貫した、しばしば顕著なパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2025-08-15T16:14:51Z) - Performance of GPT-5 Frontier Models in Ophthalmology Question Answering [6.225411871775591]
GPT-5のような大規模言語モデル(LLM)は、医学的質問応答タスクのパフォーマンスを向上させる高度な推論機能を統合する。
O1高, O3高, GPT-4oとともに, OpenAI の GPT-5 シリーズの12 構成を評価した。
GPT-5-highは、O3-highより1.66倍、理性品質(1.11倍、O3-highより1.11倍)の両方で第1位である。
これらの結果は、GPT-5を高品質眼科データセット上でベンチマークし、推論が精度に与える影響を実証し、スケーラブルな評価のためのオートグラファーフレームワークを導入した。
論文 参考訳(メタデータ) (2025-08-13T17:17:17Z) - Capabilities of GPT-5 on Multimodal Medical Reasoning [4.403894457826502]
本研究は,GPT-5を医学的意思決定支援の汎用的マルチモーダル推論器として位置づける。
GPT-5, GPT-5-mini, GPT-5-nano, GPT-4o-2024-11-20を, MedQA, MedXpertQA (text and multimodal), MMLU医療サブセット, USMLE自己評価試験, VQA-RADの標準分割と比較した。
論文 参考訳(メタデータ) (2025-08-11T17:43:45Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - Exploring the Boundaries of GPT-4 in Radiology [46.30976153809968]
GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。
結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
論文 参考訳(メタデータ) (2023-10-23T05:13:03Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。