論文の概要: Benchmarking GPT-5 for biomedical natural language processing
- arxiv url: http://arxiv.org/abs/2509.04462v2
- Date: Thu, 23 Oct 2025 15:09:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:09.838688
- Title: Benchmarking GPT-5 for biomedical natural language processing
- Title(参考訳): バイオメディカル自然言語処理のためのベンチマークGPT-5
- Authors: Yu Hou, Zaifu Zhan, Min Zeng, Yifan Wu, Shuang Zhou, Rui Zhang,
- Abstract要約: 本研究は,GPT-5とGPT-4oを5つの中核生物医学的NLPタスクで評価するための統一ベンチマークを拡張した。
GPT-5 は一貫して GPT-4o を上回り、推論集約データセットで最大の利益を得た。
- 参考スコア(独自算出の注目度): 17.663813433200122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Biomedical literature and clinical narratives pose multifaceted challenges for natural language understanding, from precise entity extraction and document synthesis to multi-step diagnostic reasoning. This study extends a unified benchmark to evaluate GPT-5 and GPT-4o under zero-, one-, and five-shot prompting across five core biomedical NLP tasks: named entity recognition, relation extraction, multi-label document classification, summarization, and simplification, and nine expanded biomedical QA datasets covering factual knowledge, clinical reasoning, and multimodal visual understanding. Using standardized prompts, fixed decoding parameters, and consistent inference pipelines, we assessed model performance, latency, and token-normalized cost under official pricing. GPT-5 consistently outperformed GPT-4o, with the largest gains on reasoning-intensive datasets such as MedXpertQA and DiagnosisArena and stable improvements in multimodal QA. In core tasks, GPT-5 achieved better chemical NER and ChemProt scores but remained below domain-tuned baselines for disease NER and summarization. Despite producing longer outputs, GPT-5 showed comparable latency and 30 to 50 percent lower effective cost per correct prediction. Fine-grained analyses revealed improvements in diagnosis, treatment, and reasoning subtypes, whereas boundary-sensitive extraction and evidence-dense summarization remain challenging. Overall, GPT-5 approaches deployment-ready performance for biomedical QA while offering a favorable balance of accuracy, interpretability, and economic efficiency. The results support a tiered prompting strategy: direct prompting for large-scale or cost-sensitive applications, and chain-of-thought scaffolds for analytically complex or high-stakes scenarios, highlighting the continued need for hybrid solutions where precision and factual fidelity are critical.
- Abstract(参考訳): バイオメディカル文献と臨床物語は、正確な実体抽出や文書合成から多段階の診断推論まで、自然言語理解のための多面的課題を提起する。
本研究は,GPT-5とGPT-4oを0,1,5ショットで評価するための統一されたベンチマークを拡張した。このベンチマークは,実知,臨床推論,マルチモーダル視覚理解を含む9つのバイオメディカルQAデータセットを対象とし,エンティティ認識,関係抽出,多ラベル文書分類,要約,単純化の5つのコアバイオメディカルNLPタスクに対して促進するものである。
標準化されたプロンプト、固定デコードパラメータ、一貫性のある推論パイプラインを使用して、公式価格下でのモデルパフォーマンス、レイテンシ、トークン正規化コストを評価した。
GPT-5は一貫してGPT-4oより優れており、MedXpertQA や diagnosisArena のような推論集約的なデータセットやマルチモーダルQAの安定的な改善が最大の利益となっている。
コアタスクでは、GPT-5 はより優れた化学 NER と ChemProt のスコアを得たが、NER と要約のためのドメインチューニングベースライン以下にとどまった。
出力が長いにもかかわらず、GPT-5のレイテンシは同等であり、正しい予測毎に30~50%のコストが削減された。
微粒化分析では診断,治療,推論サブタイプの改善がみられたが,境界感受性抽出とエビデンス・デンス・サマリゼーションは依然として困難であった。
全体として、GPT-5は、正確性、解釈可能性、経済効率のバランスを良好に保ちながら、バイオメディカルQAの展開可能な性能にアプローチする。
結果は、大規模またはコストに敏感なアプリケーションへの直接的プロンプトと、分析的に複雑または高精度なシナリオのためのチェーン・オブ・シークレットの足場をサポートし、精度と事実の忠実性が重要となるハイブリッドソリューションの継続的なニーズを強調している。
関連論文リスト
- Benchmarking GPT-5 for Zero-Shot Multimodal Medical Reasoning in Radiology and Radiation Oncology [4.156123728258067]
GPT-5 と GPT-5-mini, GPT-5-nano を 3 つのタスクでゼロショット評価した。
全データセットにおいて、GPT-5はGPT-4oよりも高い精度を達成し、解剖学的に挑戦する領域では+200%まで上昇した。
GPT-5は、画像基底推論とドメイン固有の数値問題解決の両方において、GPT-4oよりも一貫した、しばしば顕著なパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2025-08-15T16:14:51Z) - Performance of GPT-5 Frontier Models in Ophthalmology Question Answering [6.225411871775591]
GPT-5のような大規模言語モデル(LLM)は、医学的質問応答タスクのパフォーマンスを向上させる高度な推論機能を統合する。
O1高, O3高, GPT-4oとともに, OpenAI の GPT-5 シリーズの12 構成を評価した。
GPT-5-highは、O3-highより1.66倍、理性品質(1.11倍、O3-highより1.11倍)の両方で第1位である。
これらの結果は、GPT-5を高品質眼科データセット上でベンチマークし、推論が精度に与える影響を実証し、スケーラブルな評価のためのオートグラファーフレームワークを導入した。
論文 参考訳(メタデータ) (2025-08-13T17:17:17Z) - Capabilities of GPT-5 on Multimodal Medical Reasoning [4.403894457826502]
本研究は,GPT-5を医学的意思決定支援の汎用的マルチモーダル推論器として位置づける。
GPT-5, GPT-5-mini, GPT-5-nano, GPT-4o-2024-11-20を, MedQA, MedXpertQA (text and multimodal), MMLU医療サブセット, USMLE自己評価試験, VQA-RADの標準分割と比較した。
論文 参考訳(メタデータ) (2025-08-11T17:43:45Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - Exploring the Boundaries of GPT-4 in Radiology [46.30976153809968]
GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。
結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
論文 参考訳(メタデータ) (2023-10-23T05:13:03Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。