Fugu-MT 論文翻訳(概要): GPT-4's assessment of its performance in a USMLE-based case study

論文の概要: GPT-4's assessment of its performance in a USMLE-based case study

arxiv url: http://arxiv.org/abs/2402.09654v1
Date: Thu, 15 Feb 2024 01:38:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 17:15:17.901861
Title: GPT-4's assessment of its performance in a USMLE-based case study
Title（参考訳）: gpt-4のusmleに基づくケーススタディにおける性能評価
Authors: Uttam Dhakal, Aniket Kumar Singh, Suman Devkota, Yogesh Sapkota, Bishal Lamichhane, Suprinsa Paudyal, Chandra Dhakal
Abstract要約: 本研究は、医療応用におけるGPT-4の評価について検討する。質問票は,フィードバック(WF)とフィードバック(NF)のない質問(NF)の2つに分類した。結果は、フィードバックは相対的な信頼に影響を及ぼすが、継続的に増加または減少しないことを示している。
参考スコア（独自算出の注目度）: 3.3766673665651767
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study investigates GPT-4's assessment of its performance in healthcare applications. A simple prompting technique was used to prompt the LLM with questions taken from the United States Medical Licensing Examination (USMLE) questionnaire and it was tasked to evaluate its confidence score before posing the question and after asking the question. The questionnaire was categorized into two groups-questions with feedback (WF) and questions with no feedback(NF) post-question. The model was asked to provide absolute and relative confidence scores before and after each question. The experimental findings were analyzed using statistical tools to study the variability of confidence in WF and NF groups. Additionally, a sequential analysis was conducted to observe the performance variation for the WF and NF groups. Results indicate that feedback influences relative confidence but doesn't consistently increase or decrease it. Understanding the performance of LLM is paramount in exploring its utility in sensitive areas like healthcare. This study contributes to the ongoing discourse on the reliability of AI, particularly of LLMs like GPT-4, within healthcare, offering insights into how feedback mechanisms might be optimized to enhance AI-assisted medical education and decision support.
Abstract（参考訳）: 本研究は、医療応用におけるGPT-4の評価について検討する。米国医学ライセンス試験 (USMLE) のアンケート調査から得られた質問に対して, 簡単なプロンプト法を用いてLCMを刺激し, 質問に反応する前にその信頼度を評価することを課題とした。アンケートは,フィードバックなし群(wf)と無フィードバック群(nf)の2つのグループに分類した。モデルは各質問の前後に絶対的および相対的信頼スコアを提供するよう求められた。実験結果は,wf群とnf群の信頼性の変動を調べるために統計的ツールを用いて解析した。さらに,WF群とNF群のパフォーマンス変動を観測するために,逐次解析を行った。結果は、フィードバックは相対的な信頼に影響を及ぼすが、継続的に増加または減少しないことを示している。 LLMのパフォーマンスを理解することは、医療などのセンシティブな分野でその有用性を探求する上で最重要である。この研究は、医療におけるAIの信頼性、特にGPT-4のようなLCMの信頼性に関する継続的な議論に寄与し、AI支援医療教育と意思決定支援を強化するためにフィードバックメカニズムをどのように最適化するかについての洞察を提供する。

関連論文リスト

HIVMedQA: Benchmarking large language models for HIV medical decision support [0.0]
HIV管理は、その複雑さのために魅力的なユースケースである。大規模言語モデル(LLM)を臨床実践に統合すると、正確性、潜在的な害、臨床受理に関する懸念が高まる。本研究は、HIV治療におけるLSMの現在の能力を評価し、その強度と限界を強調した。
論文参考訳（メタデータ） (2025-07-24T07:06:30Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment [59.09144776166979]
大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。
論文参考訳（メタデータ） (2024-11-05T18:58:00Z)
Large Language Models for Patient Comments Multi-Label Classification [3.670008893193884]
本研究は,多ラベルテキスト分類(MLTC)におけるLLM(Large Language Models)の活用について検討する。 GPT-4 ターボは分類を行うために利用された。プロンプトエンジニアリングフレームワークを使用することで、ゼロショット学習、インコンテキスト学習、チェーンオブ思考プロンプトを実験した。
論文参考訳（メタデータ） (2024-10-31T00:29:52Z)
Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文参考訳（メタデータ） (2024-07-20T11:19:58Z)
Evaluating the Effectiveness of the Foundational Models for Q&A Classification in Mental Health care [0.18416014644193068]
プレトレーニング言語モデル(PLM)は、メンタルヘルスを変革する可能性がある。本研究は,精神保健領域における質問紙と回答紙の分類におけるPLMの有効性を評価するものである。
論文参考訳（メタデータ） (2024-06-23T00:11:07Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。 LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Quality of Answers of Generative Large Language Models vs Peer Patients for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。 GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。 GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文参考訳（メタデータ） (2024-01-23T22:03:51Z)
Large Language Models in Medical Term Classification and Unexpected Misalignment Between Response and Reasoning [28.355000184014084]
本研究は, 軽度認知障害 (MCI) 患者を退院サマリーから識別する, 最先端の大規模言語モデル (LLMs) の有効性を評価するものである。データは、モデルの微調整と評価のために、トレーニング、検証、テストセットに7:2:1の比率で分割された。 FalconやLLaMA 2のようなオープンソースのモデルは高い精度を達成したが、説明的推論に欠けていた。
論文参考訳（メタデータ） (2023-12-19T17:36:48Z)
A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。 GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文参考訳（メタデータ） (2023-10-31T11:39:09Z)
An Automatic Evaluation Framework for Multi-turn Medical Consultations Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-05T09:24:48Z)
Medical Misinformation in AI-Assisted Self-Diagnosis: Development of a Method (EvalPrompt) for Analyzing Large Language Models [4.8775268199830935]
本研究は、自己診断ツールとしての大規模言語モデル(LLM)の有効性と、医療情報の拡散における役割を評価することを目的とする。我々は,実世界の自己診断を模倣するオープンエンド質問を用いて,現実的な自己診断を模倣する文のドロップアウトを行い,情報不足を伴う現実的な自己診断を模倣する。その結果, LLMの応答が不明確で不正確な場合が多いため, LLMの質素な機能を強調した。
論文参考訳（メタデータ） (2023-07-10T21:28:26Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-01T06:16:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。