論文の概要: Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations
- arxiv url: http://arxiv.org/abs/2303.18027v1
- Date: Fri, 31 Mar 2023 13:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 14:06:10.637411
- Title: Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations
- Title(参考訳): 医療ライセンス試験におけるgpt-4とchatgptの評価
- Authors: Jungo Kasai, Yuhei Kasai, Keisuke Sakaguchi, Yutaro Yamada, Dragomir
Radev
- Abstract要約: 本研究は,過去5年間の全国医療ライセンス試験において,大規模言語モデル(LLM)を評価した。
実験の結果, GPT-4はChatGPTおよびGPT-3より優れており, 5年間の試験に合格していることがわかった。
ベンチマークをIgaku QAとしてリリースし、すべてのモデル出力と試験メタデータを公開します。
- 参考スコア(独自算出の注目度): 22.31663814655303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) gain popularity among speakers of diverse
languages, we believe that it is crucial to benchmark them to better understand
model behaviors, failures, and limitations in languages beyond English. In this
work, we evaluate LLM APIs (ChatGPT, GPT-3, and GPT-4) on the Japanese national
medical licensing examinations from the past five years. Our team comprises
native Japanese-speaking NLP researchers and a practicing cardiologist based in
Japan. Our experiments show that GPT-4 outperforms ChatGPT and GPT-3 and passes
all five years of the exams, highlighting LLMs' potential in a language that is
typologically distant from English. However, our evaluation also exposes
critical limitations of the current LLM APIs. First, LLMs sometimes select
prohibited choices that should be strictly avoided in medical practice in
Japan, such as suggesting euthanasia. Further, our analysis shows that the API
costs are generally higher and the maximum context size is smaller for Japanese
because of the way non-Latin scripts are currently tokenized in the pipeline.
We release our benchmark as Igaku QA as well as all model outputs and exam
metadata. We hope that our results and benchmark will spur progress on more
diverse applications of LLMs. Our benchmark is available at
https://github.com/jungokasai/IgakuQA.
- Abstract(参考訳): 多様な言語の話者の間で大きな言語モデル(LLM)が普及するにつれて、モデル行動や失敗、英語以外の言語の制限をよりよく理解するために、それらをベンチマークすることが重要であると信じています。
本研究では,過去5年間の全国医療ライセンス試験におけるLCM API(ChatGPT, GPT-3, GPT-4)の評価を行った。
本研究チームは日本語話者のNLP研究者と,日本在住の心臓科医からなる。
実験の結果,gpt-4 は chatgpt と gpt-3 を上回っており,試験の5年すべてに合格していることが明らかとなった。
しかし、我々の評価では、現在のLLM APIの限界も明らかにしている。
第一に、LLMは、日本の医療行為において厳格に避けるべき禁止された選択を選定することがある。
さらに分析の結果,非ラテン語スクリプトがパイプライン内でトークン化されているため,一般的にはAPIコストが高く,最大コンテキストサイズが小さくなっていることがわかった。
ベンチマークをIgaku QAとしてリリースし、すべてのモデル出力と試験メタデータを公開します。
私たちの結果とベンチマークがllmのより多様なアプリケーションの発展を促すことを期待しています。
ベンチマークはhttps://github.com/jungokasai/igakuqaで利用可能です。
関連論文リスト
- Evaluating the Elementary Multilingual Capabilities of Large Language
Models with MultiQ [15.844303418745692]
大規模言語モデル(LLM)は、世界中の英語話者の大多数を含むすべての人にサービスを提供する必要がある。
近年の研究では、意図した用途に制限があるにもかかわらず、多くの言語でLSMを促すことが示されている。
我々は、27.4kのテスト質問に答える基本的なオープンエンド質問のための新しい銀標準ベンチマークであるMultiQを紹介する。
論文 参考訳(メタデータ) (2024-03-06T16:01:44Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Adapting Large Language Models for Document-Level Machine Translation [49.74879186939818]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。
近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - HuatuoGPT-II, One-stage Training for Medical Adaption of LLMs [62.73042700847977]
HuatuoGPT-IIは、いくつかのベンチマークで、中国の医学領域における最先端のパフォーマンスを示している。
さらに、ChatGPTやGPT-4といったプロプライエタリなモデルよりも、特に中国伝統医学において優れています。
論文 参考訳(メタデータ) (2023-11-16T10:56:24Z) - MEGAVERSE: Benchmarking Large Language Models Across Languages,
Modalities, Models and Tasks [13.042411211765387]
本研究は,MEGAVERSEベンチマークを作成するための6つの新しいデータセットを含むことで,MEGAスイートを拡張することを目的としている。
ベンチマークは、低リソースのアフリカ言語を含む81言語をカバーする22のデータセットで構成されている。
我々は,MEGAVERSE データセット上で GPT-3.5-Turbo, GPT4, PaLM2, Llama2 などの最先端 LLM の評価を行った。
論文 参考訳(メタデータ) (2023-11-13T16:45:37Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training
Regime and Better Alignment to Human Preferences [55.42521181558716]
中国医学領域向けに設計された新しいベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、コンテキスト長を4,096トークンに拡大し、事前トレーニング、SFT、RLHFを含む総合的なトレーニング体制を実行している。
情報抽出,質問応答,対話生成などの実世界のタスクの評価は,一般的なドメインLLMよりもChiMed-GPTの方が優れた性能を示している。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain [24.411904114158673]
我々は、中国生物医学言語理解評価(CBlue)ベンチマークを大規模なプロンプトチューニングベンチマークであるPromptCBlueに再構築した。
我々のベンチマークは、幅広いバイオメディカルタスクにおいて、中国のLCMのマルチタスク能力を評価するのに適したテストベッドであり、オンラインプラットフォームである。
論文 参考訳(メタデータ) (2023-10-22T02:20:38Z) - Efficient Finetuning Large Language Models For Vietnamese Chatbot [1.2075778142867704]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な性能を発揮することが示されている。
Alpaca、GPT4All、Chat-Doctorなど、オープンソースの大規模インストラクションフォローデータセットを活用しています。
我々は,低ランク適応(LoRA)によるパラメータ効率チューニングを2つのオープンLLM上で行い,その結果,Bloomz-Chat,Bloomz-Doctor,GPTJ-Chat,GPTJ-Doctorの4つのモデルを得た。
論文 参考訳(メタデータ) (2023-09-09T00:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。