論文の概要: Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations
- arxiv url: http://arxiv.org/abs/2303.18027v2
- Date: Wed, 5 Apr 2023 07:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 14:51:07.323478
- Title: Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations
- Title(参考訳): 医療ライセンス試験におけるgpt-4とchatgptの評価
- Authors: Jungo Kasai, Yuhei Kasai, Keisuke Sakaguchi, Yutaro Yamada, Dragomir
Radev
- Abstract要約: 本研究は,過去5年間の全国医療免許試験における大規模言語モデル (LLM) の評価である。
実験の結果, GPT-4はChatGPTおよびGPT-3より優れており, 6年間の試験に合格していることがわかった。
ベンチマークをIgaku QAとしてリリースし、すべてのモデル出力と試験メタデータを公開します。
- 参考スコア(独自算出の注目度): 22.31663814655303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) gain popularity among speakers of diverse
languages, we believe that it is crucial to benchmark them to better understand
model behaviors, failures, and limitations in languages beyond English. In this
work, we evaluate LLM APIs (ChatGPT, GPT-3, and GPT-4) on the Japanese national
medical licensing examinations from the past five years, including the current
year. Our team comprises native Japanese-speaking NLP researchers and a
practicing cardiologist based in Japan. Our experiments show that GPT-4
outperforms ChatGPT and GPT-3 and passes all six years of the exams,
highlighting LLMs' potential in a language that is typologically distant from
English. However, our evaluation also exposes critical limitations of the
current LLM APIs. First, LLMs sometimes select prohibited choices that should
be strictly avoided in medical practice in Japan, such as suggesting
euthanasia. Further, our analysis shows that the API costs are generally higher
and the maximum context size is smaller for Japanese because of the way
non-Latin scripts are currently tokenized in the pipeline. We release our
benchmark as Igaku QA as well as all model outputs and exam metadata. We hope
that our results and benchmark will spur progress on more diverse applications
of LLMs. Our benchmark is available at https://github.com/jungokasai/IgakuQA.
- Abstract(参考訳): 多様な言語の話者の間で大きな言語モデル(LLM)が普及するにつれて、モデル行動や失敗、英語以外の言語の制限をよりよく理解するために、それらをベンチマークすることが重要であると信じています。
本研究は,過去5年間の全国医療ライセンス試験におけるLCM API(ChatGPT, GPT-3, GPT-4)の評価である。
本研究チームは日本語話者のNLP研究者と,日本在住の心臓科医からなる。
実験の結果, GPT-4はChatGPTおよびGPT-3より優れており,6年間の試験を通した。
しかし、我々の評価では、現在のLLM APIの限界も明らかにしている。
第一に、LLMは、日本の医療行為において厳格に避けるべき禁止された選択を選定することがある。
さらに分析の結果,非ラテン語スクリプトがパイプライン内でトークン化されているため,一般的にはAPIコストが高く,最大コンテキストサイズが小さくなっていることがわかった。
ベンチマークをIgaku QAとしてリリースし、すべてのモデル出力と試験メタデータを公開します。
私たちの結果とベンチマークがllmのより多様なアプリケーションの発展を促すことを期待しています。
ベンチマークはhttps://github.com/jungokasai/igakuqaで利用可能です。
関連論文リスト
- One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [55.35278531907263]
本稿では,大言語モデルの公平性と頑健性に関する最初の研究を標準的推論タスクにおける方言に提示する。
我々は、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えるために、AAVEスピーカーを採用。
標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Development and bilingual evaluation of Japanese medical large language model within reasonably low computational resources [0.0]
本稿では,近年の7Bモデルに基づく医療適応について述べる。
日本語医学データセットに基づく英語中心ベースモデルの微調整により,両言語のスコアが向上することが判明した。
論文 参考訳(メタデータ) (2024-09-18T08:07:37Z) - 70B-parameter large language models in Japanese medical question-answering [0.0]
本研究では,日本語医学的質問回答データセットを用いた指導指導が,日本の医学的ライセンス試験の解決能力を大幅に向上させることを示す。
特に、日本語中心のモデルでは、英語中心のモデルに比べて、指導調律による改良が顕著に進んでいる。
論文 参考訳(メタデータ) (2024-06-21T06:04:10Z) - Multiple Choice Questions and Large Languages Models: A Case Study with Fictional Medical Data [3.471944921180245]
非存在腺であるGlianorexに焦点をあてた架空の医療ベンチマークを開発した。
このアプローチにより、LSMの知識をテストテイク能力から切り離すことができます。
我々は、これらの質問をゼロショット設定で、様々なオープンソース、プロプライエタリ、ドメイン固有のLCMを評価した。
論文 参考訳(メタデータ) (2024-06-04T15:08:56Z) - MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering [8.110978727364397]
大規模言語モデル(LLM)は、人工知能技術の発展を促進する可能性を秘めている。
本稿では,MedExpQAについて述べる。MedExpQAは,医学質問応答におけるLSMを評価するための,医学試験に基づく最初の多言語ベンチマークである。
論文 参考訳(メタデータ) (2024-04-08T15:03:57Z) - Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT [4.574416868427695]
本稿では,ペルシア語に対する大規模言語モデル(LLM)の有効性について検討する。
本稿では,ペルシャ語タスクにおけるLSMの総合的なベンチマーク研究について紹介する。
論文 参考訳(メタデータ) (2024-04-03T02:12:29Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - HuatuoGPT-II, One-stage Training for Medical Adaption of LLMs [61.41790586411816]
HuatuoGPT-IIは、いくつかのベンチマークで、中国の医学領域における最先端のパフォーマンスを示している。
さらに、ChatGPTやGPT-4といったプロプライエタリなモデルよりも、特に中国伝統医学において優れています。
論文 参考訳(メタデータ) (2023-11-16T10:56:24Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。