論文の概要: A Comparative Study of Open-Source Large Language Models, GPT-4 and
Claude 2: Multiple-Choice Test Taking in Nephrology
- arxiv url: http://arxiv.org/abs/2308.04709v1
- Date: Wed, 9 Aug 2023 05:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 15:00:36.608962
- Title: A Comparative Study of Open-Source Large Language Models, GPT-4 and
Claude 2: Multiple-Choice Test Taking in Nephrology
- Title(参考訳): オープンソースの大言語モデルgpt-4とclaude 2の比較研究 : 腎学における多言語テスト
- Authors: Sean Wu, Michael Koo, Lesley Blum, Andy Black, Liyo Kao, Fabien
Scalzo, Ira Kurtz
- Abstract要約: 本研究は,LLMモデルがNephSAP多重選択質問に対する正しい回答を提供する能力を評価するために行われた。
本研究の結果は将来の医療訓練や患者医療に重大な影響を与える可能性がある。
- 参考スコア(独自算出の注目度): 0.6213359027997152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there have been significant breakthroughs in the field of
natural language processing, particularly with the development of large
language models (LLMs). These LLMs have showcased remarkable capabilities on
various benchmarks. In the healthcare field, the exact role LLMs and other
future AI models will play remains unclear. There is a potential for these
models in the future to be used as part of adaptive physician training, medical
co-pilot applications, and digital patient interaction scenarios. The ability
of AI models to participate in medical training and patient care will depend in
part on their mastery of the knowledge content of specific medical fields. This
study investigated the medical knowledge capability of LLMs, specifically in
the context of internal medicine subspecialty multiple-choice test-taking
ability. We compared the performance of several open-source LLMs (Koala 7B,
Falcon 7B, Stable-Vicuna 13B, and Orca Mini 13B), to GPT-4 and Claude 2 on
multiple-choice questions in the field of Nephrology. Nephrology was chosen as
an example of a particularly conceptually complex subspecialty field within
internal medicine. The study was conducted to evaluate the ability of LLM
models to provide correct answers to nephSAP (Nephrology Self-Assessment
Program) multiple-choice questions. The overall success of open-sourced LLMs in
answering the 858 nephSAP multiple-choice questions correctly was 17.1% -
25.5%. In contrast, Claude 2 answered 54.4% of the questions correctly, whereas
GPT-4 achieved a score of 73.3%. We show that current widely used open-sourced
LLMs do poorly in their ability for zero-shot reasoning when compared to GPT-4
and Claude 2. The findings of this study potentially have significant
implications for the future of subspecialty medical training and patient care.
- Abstract(参考訳): 近年、特に大規模言語モデル(llm)の開発において、自然言語処理の分野で大きなブレークスルーが起きている。
これらのLSMは様々なベンチマークで顕著な性能を示した。
医療分野では、LSMや他の将来のAIモデルが果たす役割は、まだ不明だ。
将来これらのモデルが、適応的な医師訓練、医療共同パイロット応用、デジタル患者相互作用シナリオの一部として使われる可能性がある。
AIモデルが医療訓練や患者医療に参加する能力は、特定の医療分野の知識内容の熟達度に部分的に依存する。
本研究では,LSMの医学的知識能力,特に内科領域における多点検診能力について検討した。
我々は,複数のオープンソースのLCM(Koala 7B,Falcon 7B,Stable-Vicuna 13B,Orca Mini 13B)の性能を,腎学の分野における複数の質問に対するGPT-4とClaude 2と比較した。
腎学は、特に概念的に複雑な内科領域の例として選ばれた。
腎SAP (Nephrology Self-Assessment Program) に対する複数の質問に対する正しい回答を提供するためのLLMモデルの有効性について検討した。
858のNephSAPの複数の質問に正確に答えるオープンソースLLMの全体的な成功は17.1%25.5%であった。
一方、クロード2は54.4%を正解し、GPT-4は73.3%を獲得した。
GPT-4 や Claude 2 と比較して,現在広く使用されているオープンソース LLM はゼロショット推論能力に乏しいことを示す。
本研究の成果は, 臨床研修や患者医療の将来に有意な影響を及ぼす可能性がある。
関連論文リスト
- The Potential of LLMs in Medical Education: Generating Questions and Answers for Qualification Exams [9.802579169561781]
大規模言語モデル(LLM)は、数発のプロンプトに基づいて、医学的資格試験の質問とそれに対応する回答を生成することができる。
研究によると、LSMは数発のプロンプトを使った後、現実世界の医学試験の質問を効果的に模倣できることがわかった。
論文 参考訳(メタデータ) (2024-10-31T09:33:37Z) - A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.70022886795487]
OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。
本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
論文 参考訳(メタデータ) (2024-09-23T17:59:43Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Performance of large language models in numerical vs. semantic medical knowledge: Benchmarking on evidence-based Q&As [1.0034156461900003]
大規模言語モデル(LLM)は言語ベースの臨床実践の多くの側面において有望な結果を示す。
包括的医療知識グラフ(50,00以上の査読済み記事から得られたデータ)を用いて「EBMQA」を作成しました。
私たちはこのデータセットを、最先端の2つのLLMであるChat-GPT4とClaude3-Opusについて24,500以上の質問を使ってベンチマークした。
いずれのLLMも数値QAよりもセマンティックに優れており,Claude3は数値QAでGPT4を上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-06T08:41:46Z) - Multiple Choice Questions and Large Languages Models: A Case Study with Fictional Medical Data [3.471944921180245]
非存在腺であるGlianorexに焦点をあてた架空の医療ベンチマークを開発した。
このアプローチにより、LSMの知識をテストテイク能力から切り離すことができます。
我々は、これらの質問をゼロショット設定で、様々なオープンソース、プロプライエタリ、ドメイン固有のLCMを評価した。
論文 参考訳(メタデータ) (2024-06-04T15:08:56Z) - Towards Building Multilingual Language Model for Medicine [54.1382395897071]
6つの主要言語を含む約25.5Bトークンを含む多言語医療コーパスを構築した。
MMedBench と呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。
我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、MMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-02-21T17:47:20Z) - MEDITRON-70B: Scaling Medical Pretraining for Large Language Models [91.25119823784705]
大きな言語モデル(LLM)は、医療知識へのアクセスを民主化することができる。
医療領域に適応した7Bおよび70BパラメータのオープンソースLLMスイートであるMEDITRONをリリースする。
論文 参考訳(メタデータ) (2023-11-27T18:49:43Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。