論文の概要: A Comparative Study of Open-Source Large Language Models, GPT-4 and
Claude 2: Multiple-Choice Test Taking in Nephrology
- arxiv url: http://arxiv.org/abs/2308.04709v1
- Date: Wed, 9 Aug 2023 05:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 15:00:36.608962
- Title: A Comparative Study of Open-Source Large Language Models, GPT-4 and
Claude 2: Multiple-Choice Test Taking in Nephrology
- Title(参考訳): オープンソースの大言語モデルgpt-4とclaude 2の比較研究 : 腎学における多言語テスト
- Authors: Sean Wu, Michael Koo, Lesley Blum, Andy Black, Liyo Kao, Fabien
Scalzo, Ira Kurtz
- Abstract要約: 本研究は,LLMモデルがNephSAP多重選択質問に対する正しい回答を提供する能力を評価するために行われた。
本研究の結果は将来の医療訓練や患者医療に重大な影響を与える可能性がある。
- 参考スコア(独自算出の注目度): 0.6213359027997152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there have been significant breakthroughs in the field of
natural language processing, particularly with the development of large
language models (LLMs). These LLMs have showcased remarkable capabilities on
various benchmarks. In the healthcare field, the exact role LLMs and other
future AI models will play remains unclear. There is a potential for these
models in the future to be used as part of adaptive physician training, medical
co-pilot applications, and digital patient interaction scenarios. The ability
of AI models to participate in medical training and patient care will depend in
part on their mastery of the knowledge content of specific medical fields. This
study investigated the medical knowledge capability of LLMs, specifically in
the context of internal medicine subspecialty multiple-choice test-taking
ability. We compared the performance of several open-source LLMs (Koala 7B,
Falcon 7B, Stable-Vicuna 13B, and Orca Mini 13B), to GPT-4 and Claude 2 on
multiple-choice questions in the field of Nephrology. Nephrology was chosen as
an example of a particularly conceptually complex subspecialty field within
internal medicine. The study was conducted to evaluate the ability of LLM
models to provide correct answers to nephSAP (Nephrology Self-Assessment
Program) multiple-choice questions. The overall success of open-sourced LLMs in
answering the 858 nephSAP multiple-choice questions correctly was 17.1% -
25.5%. In contrast, Claude 2 answered 54.4% of the questions correctly, whereas
GPT-4 achieved a score of 73.3%. We show that current widely used open-sourced
LLMs do poorly in their ability for zero-shot reasoning when compared to GPT-4
and Claude 2. The findings of this study potentially have significant
implications for the future of subspecialty medical training and patient care.
- Abstract(参考訳): 近年、特に大規模言語モデル(llm)の開発において、自然言語処理の分野で大きなブレークスルーが起きている。
これらのLSMは様々なベンチマークで顕著な性能を示した。
医療分野では、LSMや他の将来のAIモデルが果たす役割は、まだ不明だ。
将来これらのモデルが、適応的な医師訓練、医療共同パイロット応用、デジタル患者相互作用シナリオの一部として使われる可能性がある。
AIモデルが医療訓練や患者医療に参加する能力は、特定の医療分野の知識内容の熟達度に部分的に依存する。
本研究では,LSMの医学的知識能力,特に内科領域における多点検診能力について検討した。
我々は,複数のオープンソースのLCM(Koala 7B,Falcon 7B,Stable-Vicuna 13B,Orca Mini 13B)の性能を,腎学の分野における複数の質問に対するGPT-4とClaude 2と比較した。
腎学は、特に概念的に複雑な内科領域の例として選ばれた。
腎SAP (Nephrology Self-Assessment Program) に対する複数の質問に対する正しい回答を提供するためのLLMモデルの有効性について検討した。
858のNephSAPの複数の質問に正確に答えるオープンソースLLMの全体的な成功は17.1%25.5%であった。
一方、クロード2は54.4%を正解し、GPT-4は73.3%を獲得した。
GPT-4 や Claude 2 と比較して,現在広く使用されているオープンソース LLM はゼロショット推論能力に乏しいことを示す。
本研究の成果は, 臨床研修や患者医療の将来に有意な影響を及ぼす可能性がある。
関連論文リスト
- Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - MedG-KRP: Medical Graph Knowledge Representation Probing [0.6496030410305753]
大規模言語モデル(LLM)は、最近、強力なツールとして登場し、多くの医学的応用を見つけている。
LLMの生物医学的推論能力を評価するための知識グラフ(KG)に基づく手法を提案する。
GPT-4, Llama3-70b, PalmyraMed-70bは, 特殊な医療モデルである。
論文 参考訳(メタデータ) (2024-12-14T22:23:20Z) - The Potential of LLMs in Medical Education: Generating Questions and Answers for Qualification Exams [9.802579169561781]
大規模言語モデル(LLM)は、数発のプロンプトに基づいて、医学的資格試験の質問とそれに対応する回答を生成することができる。
研究によると、LSMは数発のプロンプトを使った後、現実世界の医学試験の質問を効果的に模倣できることがわかった。
論文 参考訳(メタデータ) (2024-10-31T09:33:37Z) - A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.70022886795487]
OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。
本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
論文 参考訳(メタデータ) (2024-09-23T17:59:43Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Multiple Choice Questions and Large Languages Models: A Case Study with Fictional Medical Data [3.471944921180245]
非存在腺であるGlianorexに焦点をあてた架空の医療ベンチマークを開発した。
このアプローチにより、LSMの知識をテストテイク能力から切り離すことができます。
我々は、これらの質問をゼロショット設定で、様々なオープンソース、プロプライエタリ、ドメイン固有のLCMを評価した。
論文 参考訳(メタデータ) (2024-06-04T15:08:56Z) - MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.25119823784705]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。
医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文 参考訳(メタデータ) (2023-11-27T18:49:43Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。