論文の概要: Benchmarking GPT-5 for biomedical natural language processing
- arxiv url: http://arxiv.org/abs/2509.04462v2
- Date: Thu, 23 Oct 2025 15:09:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:09.838688
- Title: Benchmarking GPT-5 for biomedical natural language processing
- Title(参考訳): バイオメディカル自然言語処理のためのベンチマークGPT-5
- Authors: Yu Hou, Zaifu Zhan, Min Zeng, Yifan Wu, Shuang Zhou, Rui Zhang,
- Abstract要約: 本研究は,GPT-5とGPT-4oを5つの中核生物医学的NLPタスクで評価するための統一ベンチマークを拡張した。
GPT-5 は一貫して GPT-4o を上回り、推論集約データセットで最大の利益を得た。
- 参考スコア(独自算出の注目度): 17.663813433200122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Biomedical literature and clinical narratives pose multifaceted challenges for natural language understanding, from precise entity extraction and document synthesis to multi-step diagnostic reasoning. This study extends a unified benchmark to evaluate GPT-5 and GPT-4o under zero-, one-, and five-shot prompting across five core biomedical NLP tasks: named entity recognition, relation extraction, multi-label document classification, summarization, and simplification, and nine expanded biomedical QA datasets covering factual knowledge, clinical reasoning, and multimodal visual understanding. Using standardized prompts, fixed decoding parameters, and consistent inference pipelines, we assessed model performance, latency, and token-normalized cost under official pricing. GPT-5 consistently outperformed GPT-4o, with the largest gains on reasoning-intensive datasets such as MedXpertQA and DiagnosisArena and stable improvements in multimodal QA. In core tasks, GPT-5 achieved better chemical NER and ChemProt scores but remained below domain-tuned baselines for disease NER and summarization. Despite producing longer outputs, GPT-5 showed comparable latency and 30 to 50 percent lower effective cost per correct prediction. Fine-grained analyses revealed improvements in diagnosis, treatment, and reasoning subtypes, whereas boundary-sensitive extraction and evidence-dense summarization remain challenging. Overall, GPT-5 approaches deployment-ready performance for biomedical QA while offering a favorable balance of accuracy, interpretability, and economic efficiency. The results support a tiered prompting strategy: direct prompting for large-scale or cost-sensitive applications, and chain-of-thought scaffolds for analytically complex or high-stakes scenarios, highlighting the continued need for hybrid solutions where precision and factual fidelity are critical.
- Abstract(参考訳): バイオメディカル文献と臨床物語は、正確な実体抽出や文書合成から多段階の診断推論まで、自然言語理解のための多面的課題を提起する。
本研究は,GPT-5とGPT-4oを0,1,5ショットで評価するための統一されたベンチマークを拡張した。このベンチマークは,実知,臨床推論,マルチモーダル視覚理解を含む9つのバイオメディカルQAデータセットを対象とし,エンティティ認識,関係抽出,多ラベル文書分類,要約,単純化の5つのコアバイオメディカルNLPタスクに対して促進するものである。
標準化されたプロンプト、固定デコードパラメータ、一貫性のある推論パイプラインを使用して、公式価格下でのモデルパフォーマンス、レイテンシ、トークン正規化コストを評価した。
GPT-5は一貫してGPT-4oより優れており、MedXpertQA や diagnosisArena のような推論集約的なデータセットやマルチモーダルQAの安定的な改善が最大の利益となっている。
コアタスクでは、GPT-5 はより優れた化学 NER と ChemProt のスコアを得たが、NER と要約のためのドメインチューニングベースライン以下にとどまった。
出力が長いにもかかわらず、GPT-5のレイテンシは同等であり、正しい予測毎に30~50%のコストが削減された。
微粒化分析では診断,治療,推論サブタイプの改善がみられたが,境界感受性抽出とエビデンス・デンス・サマリゼーションは依然として困難であった。
全体として、GPT-5は、正確性、解釈可能性、経済効率のバランスを良好に保ちながら、バイオメディカルQAの展開可能な性能にアプローチする。
結果は、大規模またはコストに敏感なアプリケーションへの直接的プロンプトと、分析的に複雑または高精度なシナリオのためのチェーン・オブ・シークレットの足場をサポートし、精度と事実の忠実性が重要となるハイブリッドソリューションの継続的なニーズを強調している。
関連論文リスト
- Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary [36.736436091313585]
この注釈書は、GPT-5ファミリー(GPT-5, GPT-5 Mini, GPT-5 Nano)の最初の制御された横断的な評価である。
GPT-5は、MedXpertQAの25ポイントを超える絶対的な改善により、専門家レベルのテキスト推論において著しく向上した。
マルチモーダル合成を課題とする場合、GPT-5はこの強化された推論能力を有効活用し、具体的な画像証拠に不確実な臨床物語を根拠とした。
論文 参考訳(メタデータ) (2026-03-05T03:24:48Z) - MedAD-R1: Eliciting Consistent Reasoning in Interpretible Medical Anomaly Detection via Consistency-Reinforced Policy Optimization [46.65200216642429]
我々はMedADの最初の大規模マルチモーダル・マルチセンタベンチマークであるMedAD-38Kを紹介し、構造化された視覚質問応答(VQA)ペアとともに、CoT(Chain-of-Thought)アノテーションを特徴付ける。
提案するモデルであるMedAD-R1は、MedAD-38Kベンチマーク上での最先端(SOTA)性能を実現し、強いベースラインを10%以上上回った。
論文 参考訳(メタデータ) (2026-02-01T07:56:10Z) - From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations [45.414878840652115]
大規模言語モデル(LLM)は医療ベンチマークで有望な性能を示した。
しかし、医学的な計算を行う能力は未熟であり、評価も不十分である。
本研究は,臨床信頼性を重視した医療計算評価を再考する。
論文 参考訳(メタデータ) (2025-09-20T09:10:26Z) - Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。
Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。
我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-09-13T15:03:34Z) - Capabilities of GPT-5 across critical domains: Is it the next breakthrough? [0.0]
OpenAIによるGPT-4は、推論、マルチモーダリティ、タスクの一般化の進歩をもたらした。
GPT-5は2025年8月にリリースされ、タスク固有の最適化のために設計されたシステム・オブ・モデルアーキテクチャが組み込まれている。
本研究は,GPT-4とGPT-5を言語学および臨床分野からヒトラッカーを用いて比較した最初の体系的比較例である。
論文 参考訳(メタデータ) (2025-08-16T12:26:11Z) - Benchmarking GPT-5 for Zero-Shot Multimodal Medical Reasoning in Radiology and Radiation Oncology [4.156123728258067]
GPT-5 と GPT-5-mini, GPT-5-nano を 3 つのタスクでゼロショット評価した。
全データセットにおいて、GPT-5はGPT-4oよりも高い精度を達成し、解剖学的に挑戦する領域では+200%まで上昇した。
GPT-5は、画像基底推論とドメイン固有の数値問題解決の両方において、GPT-4oよりも一貫した、しばしば顕著なパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2025-08-15T16:14:51Z) - Performance of GPT-5 Frontier Models in Ophthalmology Question Answering [6.225411871775591]
GPT-5のような大規模言語モデル(LLM)は、医学的質問応答タスクのパフォーマンスを向上させる高度な推論機能を統合する。
O1高, O3高, GPT-4oとともに, OpenAI の GPT-5 シリーズの12 構成を評価した。
GPT-5-highは、O3-highより1.66倍、理性品質(1.11倍、O3-highより1.11倍)の両方で第1位である。
これらの結果は、GPT-5を高品質眼科データセット上でベンチマークし、推論が精度に与える影響を実証し、スケーラブルな評価のためのオートグラファーフレームワークを導入した。
論文 参考訳(メタデータ) (2025-08-13T17:17:17Z) - Capabilities of GPT-5 on Multimodal Medical Reasoning [4.403894457826502]
本研究は,GPT-5を医学的意思決定支援の汎用的マルチモーダル推論器として位置づける。
GPT-5, GPT-5-mini, GPT-5-nano, GPT-4o-2024-11-20を, MedQA, MedXpertQA (text and multimodal), MMLU医療サブセット, USMLE自己評価試験, VQA-RADの標準分割と比較した。
論文 参考訳(メタデータ) (2025-08-11T17:43:45Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers [48.21255861863282]
BMRetrieverは、バイオメディカル検索を強化するための一連の密集したレトリバーである。
BMRetrieverは強力なパラメータ効率を示し、410Mの派生型はベースラインを最大11.7倍まで上回っている。
論文 参考訳(メタデータ) (2024-04-29T05:40:08Z) - Exploring the Boundaries of GPT-4 in Radiology [46.30976153809968]
GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。
結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
論文 参考訳(メタデータ) (2023-10-23T05:13:03Z) - Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges [58.32937972322058]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。
本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文 参考訳(メタデータ) (2023-07-30T16:08:45Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。