論文の概要: Exploring the Boundaries of GPT-4 in Radiology
- arxiv url: http://arxiv.org/abs/2310.14573v1
- Date: Mon, 23 Oct 2023 05:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 22:30:19.708546
- Title: Exploring the Boundaries of GPT-4 in Radiology
- Title(参考訳): 放射線学におけるGPT-4の境界
- Authors: Qianchu Liu, Stephanie Hyland, Shruthi Bannur, Kenza Bouzid, Daniel C.
Castro, Maria Teodora Wetscherek, Robert Tinn, Harshita Sharma, Fernando
P\'erez-Garc\'ia, Anton Schwaighofer, Pranav Rajpurkar, Sameer Tajdin Khanna,
Hoifung Poon, Naoto Usuyama, Anja Thieme, Aditya V. Nori, Matthew P. Lungren,
Ozan Oktay, Javier Alvarez-Valle
- Abstract要約: GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。
結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
- 参考スコア(独自算出の注目度): 46.30976153809968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent success of general-domain large language models (LLMs) has
significantly changed the natural language processing paradigm towards a
unified foundation model across domains and applications. In this paper, we
focus on assessing the performance of GPT-4, the most capable LLM so far, on
the text-based applications for radiology reports, comparing against
state-of-the-art (SOTA) radiology-specific models. Exploring various prompting
strategies, we evaluated GPT-4 on a diverse range of common radiology tasks and
we found GPT-4 either outperforms or is on par with current SOTA radiology
models. With zero-shot prompting, GPT-4 already obtains substantial gains
($\approx$ 10% absolute improvement) over radiology models in temporal sentence
similarity classification (accuracy) and natural language inference ($F_1$).
For tasks that require learning dataset-specific style or schema (e.g. findings
summarisation), GPT-4 improves with example-based prompting and matches
supervised SOTA. Our extensive error analysis with a board-certified
radiologist shows GPT-4 has a sufficient level of radiology knowledge with only
occasional errors in complex context that require nuanced domain knowledge. For
findings summarisation, GPT-4 outputs are found to be overall comparable with
existing manually-written impressions.
- Abstract(参考訳): 汎用言語モデル(LLM)の最近の成功は、自然言語処理パラダイムをドメインやアプリケーション間で統一された基礎モデルへと大きく変えた。
本稿では,現在最も有能なLCMであるGPT-4の性能評価に焦点をあて,最新技術(SOTA)の放射線学特化モデルとの比較を行った。
様々なプロンプト戦略を探求し,様々な共通放射線学課題において GPT-4 を評価したところ, GPT-4 は現在の SOTA 放射線学モデルに匹敵するか,あるいは同等であることがわかった。
ゼロショットプロンプトにより、GPT-4は、時間文類似性分類(精度)と自然言語推論(F_1$)において、放射線学モデルよりもかなりの利益($10%絶対改善)を得ている。
データセット固有のスタイルやスキーマ(例えば、発見要約)を学ぶ必要があるタスクでは、GPT-4はサンプルベースのプロンプトと教師付きSOTAとのマッチングによって改善される。
GPT-4は、複雑なコンテキストにおいて、複雑なドメイン知識を必要とする場合にのみ、十分なレベルの放射線学知識を有することを示す。
結果の要約では、GPT-4出力は既存の手書きインプレッションと総合的に比較できる。
関連論文リスト
- Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports [1.5972172622800358]
本研究は, 放射線学報告と鑑別診断に適した社内LPMの開発パイプラインを提案する。
GPT-4と同等の92.1%のF1スコアが得られた。
論文 参考訳(メタデータ) (2024-10-11T20:16:25Z) - BURExtract-Llama: An LLM for Clinical Concept Extraction in Breast Ultrasound Reports [9.739220217225435]
本研究は,放射線学報告から臨床情報を抽出する社内LCMを開発するためのパイプラインを提案する。
まず、GPT-4を使用して小さなラベル付きデータセットを作成し、それからその上にLlama3-8Bモデルを微調整します。
本研究は, GPT-4の性能だけでなく, コスト削減やデータプライバシの向上などを実現する社内LCMの実現可能性を示すものである。
論文 参考訳(メタデータ) (2024-08-21T04:33:05Z) - GPT-4V Cannot Generate Radiology Reports Yet [25.331936045860516]
GPT-4Vの強いマルチモーダル能力は、放射線学レポート作成を自動化するためにそれを使うことに関心を喚起する。
我々は, GPT-4V を用いた報告を異なるプロンプト戦略により直接生成し, 語彙指標と臨床効果指標の両方で異常を生じさせることを試みた。
論文 参考訳(メタデータ) (2024-07-16T21:03:14Z) - Leveraging Professional Radiologists' Expertise to Enhance LLMs'
Evaluation for Radiology Reports [22.599250713630333]
提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。
我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。
実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
論文 参考訳(メタデータ) (2024-01-29T21:24:43Z) - Holistic Evaluation of GPT-4V for Biomedical Imaging [113.46226609088194]
GPT-4Vはコンピュータビジョンのための人工知能の突破口である。
GPT-4Vは,放射線学,腫瘍学,眼科,病理学など16分野にまたがって評価を行った。
以上の結果より,GPT-4Vは異常や解剖学的認識に優れていたが,診断や局所化は困難であった。
論文 参考訳(メタデータ) (2023-11-10T18:40:44Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Radiology-Llama2: Best-in-Class Large Language Model for Radiology [71.27700230067168]
本稿では,ラジオロジーに特化した大規模言語モデルであるRadiology-Llama2を紹介する。
MIMIC-CXRとOpenIデータセットのROUGEメトリクスを用いた定量的評価は、Radiology-Llama2が最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-08-29T17:44:28Z) - Radiology-GPT: A Large Language Model for Radiology [74.07944784968372]
本稿では,ラジオロジーのための大規模言語モデルであるRadiology-GPTを紹介する。
StableLM、Dolly、LLaMAといった一般的な言語モデルと比較して、優れたパフォーマンスを示している。
放射線診断、研究、通信において大きな汎用性を示す。
論文 参考訳(メタデータ) (2023-06-14T17:57:24Z) - Exploring the Trade-Offs: Unified Large Language Models vs Local
Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。
また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文 参考訳(メタデータ) (2023-04-18T17:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。