論文の概要: Beyond the Hype: Assessing the Performance, Trustworthiness, and
Clinical Suitability of GPT3.5
- arxiv url: http://arxiv.org/abs/2306.15887v1
- Date: Wed, 28 Jun 2023 03:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 16:06:19.317188
- Title: Beyond the Hype: Assessing the Performance, Trustworthiness, and
Clinical Suitability of GPT3.5
- Title(参考訳): ハイプを超えて: GPT3.5の性能, 信頼性, 臨床適合性を評価する
- Authors: Salmonn Talebi, Elizabeth Tong and Mohammad R. K. Mofrad
- Abstract要約: 医用画像プロトコル割り当てのためのGPT3.5モデルの性能と信頼性を評価するためのアプローチを提案する。
細調整されたBERTモデルと放射線科医を比較した。
以上の結果から,GPT3.5はBERTと放射線科医に遅れていることが示唆された。
- 参考スコア(独自算出の注目度): 0.37501702548174976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of large language models (LLMs) in healthcare is gaining popularity,
but their practicality and safety in clinical settings have not been thoroughly
assessed. In high-stakes environments like medical settings, trust and safety
are critical issues for LLMs. To address these concerns, we present an approach
to evaluate the performance and trustworthiness of a GPT3.5 model for medical
image protocol assignment. We compare it with a fine-tuned BERT model and a
radiologist. In addition, we have a radiologist review the GPT3.5 output to
evaluate its decision-making process. Our evaluation dataset consists of 4,700
physician entries across 11 imaging protocol classes spanning the entire head.
Our findings suggest that the GPT3.5 performance falls behind BERT and a
radiologist. However, GPT3.5 outperforms BERT in its ability to explain its
decision, detect relevant word indicators, and model calibration. Furthermore,
by analyzing the explanations of GPT3.5 for misclassifications, we reveal
systematic errors that need to be resolved to enhance its safety and
suitability for clinical use.
- Abstract(参考訳): 医療における大規模言語モデル(LLMs)の使用は普及しているが,臨床現場での実用性や安全性は十分に評価されていない。
LLMにとって、医療環境や信頼性、安全性といった高度な環境が重要な問題である。
そこで本研究では,医療画像プロトコル割り当てのためのgpt3.5モデルの性能と信頼性を評価する手法を提案する。
細調整されたBERTモデルと放射線技師を比較した。
また,決定過程を評価するため,GPT3.5の出力を放射線学者にレビューする。
評価データセットは、頭部全体にわたる11のイメージングプロトコルクラスにまたがる4,700人の医師からなる。
以上の結果から,GPT3.5はBERTと放射線科医に遅れていることが示唆された。
しかし GPT3.5 は BERT よりも優れており、その決定を説明し、関連する単語の指標を検出し、モデルの校正を行う。
さらに, 誤分類に対する GPT3.5 の説明を解析することにより, 安全性と臨床応用への適合性を高めるために解決すべき系統的誤りを明らかにする。
関連論文リスト
- Relation Extraction Using Large Language Models: A Case Study on Acupuncture Point Locations [12.632106431145047]
GPT (Generative Pre-trained Transformers) は、キューポイント位置に関連する関係を抽出する重要な機会を提供する。
本研究では,GPTと従来の深層学習モデル(LSTM)とバイオメディカルテキストマイニング用トランスフォーマー(BioBERT)の双方向表現を比較した。
微調整のGPT-3.5は、全ての関係型でF1スコアの他のモデルよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-04-08T11:33:00Z) - Reshaping Free-Text Radiology Notes Into Structured Reports With Generative Transformers [0.29530625605275984]
構造化報告(SR)は様々な医療社会で推奨されている。
自由テキストレポートから情報を抽出するパイプラインを提案する。
我々の研究は自然言語処理(NLP)とトランスフォーマーベースのモデルを活用することを目的としている。
論文 参考訳(メタデータ) (2024-03-27T18:38:39Z) - How Well Do Multi-modal LLMs Interpret CT Scans? An Auto-Evaluation Framework for Analyses [14.884877292068351]
本研究ではGPTRadScore'という新しい評価フレームワークを紹介する。
GPT-4 with Vision (GPT-4V)、Gemini Pro Vision、LLaVA-Med、RadFMといったマルチモーダルLCMの、将来的な発見のための記述を生成する能力を評価する。
GPT-4に基づく分解手法を用いて、GPTRadScoreは生成した記述をゴールドスタンダードのレポート文と比較し、その精度を身体部分、位置、発見の種類で分析する。
論文 参考訳(メタデータ) (2024-03-08T21:16:28Z) - Leveraging Professional Radiologists' Expertise to Enhance LLMs'
Evaluation for Radiology Reports [22.599250713630333]
提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。
我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。
実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
論文 参考訳(メタデータ) (2024-01-29T21:24:43Z) - Holistic Evaluation of GPT-4V for Biomedical Imaging [113.46226609088194]
GPT-4Vはコンピュータビジョンのための人工知能の突破口である。
GPT-4Vは,放射線学,腫瘍学,眼科,病理学など16分野にまたがって評価を行った。
以上の結果より,GPT-4Vは異常や解剖学的認識に優れていたが,診断や局所化は困難であった。
論文 参考訳(メタデータ) (2023-11-10T18:40:44Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Exploring the Boundaries of GPT-4 in Radiology [46.30976153809968]
GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。
結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
論文 参考訳(メタデータ) (2023-10-23T05:13:03Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z) - Evaluating Psychological Safety of Large Language Models [72.88260608425949]
我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
論文 参考訳(メタデータ) (2022-12-20T18:45:07Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。