Fugu-MT 論文翻訳(概要): Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations

論文の概要: Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations

arxiv url: http://arxiv.org/abs/2303.18027v1
Date: Fri, 31 Mar 2023 13:04:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-03 14:06:10.637411
Title: Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations
Title（参考訳）: 医療ライセンス試験におけるgpt-4とchatgptの評価
Authors: Jungo Kasai, Yuhei Kasai, Keisuke Sakaguchi, Yutaro Yamada, Dragomir Radev
Abstract要約: 本研究は,過去5年間の全国医療ライセンス試験において,大規模言語モデル(LLM)を評価した。実験の結果, GPT-4はChatGPTおよびGPT-3より優れており, 5年間の試験に合格していることがわかった。ベンチマークをIgaku QAとしてリリースし、すべてのモデル出力と試験メタデータを公開します。
参考スコア（独自算出の注目度）: 22.31663814655303
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As large language models (LLMs) gain popularity among speakers of diverse languages, we believe that it is crucial to benchmark them to better understand model behaviors, failures, and limitations in languages beyond English. In this work, we evaluate LLM APIs (ChatGPT, GPT-3, and GPT-4) on the Japanese national medical licensing examinations from the past five years. Our team comprises native Japanese-speaking NLP researchers and a practicing cardiologist based in Japan. Our experiments show that GPT-4 outperforms ChatGPT and GPT-3 and passes all five years of the exams, highlighting LLMs' potential in a language that is typologically distant from English. However, our evaluation also exposes critical limitations of the current LLM APIs. First, LLMs sometimes select prohibited choices that should be strictly avoided in medical practice in Japan, such as suggesting euthanasia. Further, our analysis shows that the API costs are generally higher and the maximum context size is smaller for Japanese because of the way non-Latin scripts are currently tokenized in the pipeline. We release our benchmark as Igaku QA as well as all model outputs and exam metadata. We hope that our results and benchmark will spur progress on more diverse applications of LLMs. Our benchmark is available at https://github.com/jungokasai/IgakuQA.
Abstract（参考訳）: 多様な言語の話者の間で大きな言語モデル(LLM)が普及するにつれて、モデル行動や失敗、英語以外の言語の制限をよりよく理解するために、それらをベンチマークすることが重要であると信じています。本研究では,過去5年間の全国医療ライセンス試験におけるLCM API(ChatGPT, GPT-3, GPT-4)の評価を行った。本研究チームは日本語話者のNLP研究者と,日本在住の心臓科医からなる。実験の結果,gpt-4 は chatgpt と gpt-3 を上回っており,試験の5年すべてに合格していることが明らかとなった。しかし、我々の評価では、現在のLLM APIの限界も明らかにしている。第一に、LLMは、日本の医療行為において厳格に避けるべき禁止された選択を選定することがある。さらに分析の結果,非ラテン語スクリプトがパイプライン内でトークン化されているため,一般的にはAPIコストが高く,最大コンテキストサイズが小さくなっていることがわかった。ベンチマークをIgaku QAとしてリリースし、すべてのモデル出力と試験メタデータを公開します。私たちの結果とベンチマークがllmのより多様なアプリケーションの発展を促すことを期待しています。ベンチマークはhttps://github.com/jungokasai/igakuqaで利用可能です。

関連論文リスト

Do LLMs exhibit the same commonsense capabilities across languages? [4.177608674029413]
我々はCOCOTEROSデータセットを4つの言語(英語、スペイン語、オランダ語、バレンシア語)に拡張する新しいベンチマークであるMultiCOMを紹介した。このタスクは、与えられた3つの単語を含む常識的な文を生成することを含む。その結果、英語では優れた性能を示し、低リソース言語では大幅に性能が低下した。
論文参考訳（メタデータ） (2025-09-08T07:47:00Z)
EXECUTE: A Multilingual Benchmark for LLM Token Understanding [54.70665106141121]
複数の言語にまたがるテストでは、他の言語の課題が英語のように常に文字レベルにあるとは限らないことが分かる。また、中国語、日本語、韓国語のサブ文字タスクについても検討し、LLMの文字成分に対する理解を評価する。
論文参考訳（メタデータ） (2025-05-23T11:56:48Z)
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [55.35278531907263]
本稿では,大言語モデルの公平性と頑健性に関する最初の研究を標準的推論タスクにおける方言に提示する。我々は、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えるために、AAVEスピーカーを採用。標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。
論文参考訳（メタデータ） (2024-10-14T18:44:23Z)
Development and bilingual evaluation of Japanese medical large language model within reasonably low computational resources [0.0]
本稿では,近年の7Bモデルに基づく医療適応について述べる。日本語医学データセットに基づく英語中心ベースモデルの微調整により,両言語のスコアが向上することが判明した。
論文参考訳（メタデータ） (2024-09-18T08:07:37Z)
70B-parameter large language models in Japanese medical question-answering [0.0]
本研究では,日本語医学的質問回答データセットを用いた指導指導が,日本の医学的ライセンス試験の解決能力を大幅に向上させることを示す。特に、日本語中心のモデルでは、英語中心のモデルに比べて、指導調律による改良が顕著に進んでいる。
論文参考訳（メタデータ） (2024-06-21T06:04:10Z)
Multiple Choice Questions and Large Languages Models: A Case Study with Fictional Medical Data [3.471944921180245]
非存在腺であるGlianorexに焦点をあてた架空の医療ベンチマークを開発した。このアプローチにより、LSMの知識をテストテイク能力から切り離すことができます。我々は、これらの質問をゼロショット設定で、様々なオープンソース、プロプライエタリ、ドメイン固有のLCMを評価した。
論文参考訳（メタデータ） (2024-06-04T15:08:56Z)
MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering [8.110978727364397]
大規模言語モデル(LLM)は、人工知能技術の発展を促進する可能性を秘めている。本稿では,MedExpQAについて述べる。MedExpQAは,医学質問応答におけるLSMを評価するための,医学試験に基づく最初の多言語ベンチマークである。
論文参考訳（メタデータ） (2024-04-08T15:03:57Z)
Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT [4.574416868427695]
本稿では,ペルシア語に対する大規模言語モデル(LLM)の有効性について検討する。本稿では,ペルシャ語タスクにおけるLSMの総合的なベンチマーク研究について紹介する。
論文参考訳（メタデータ） (2024-04-03T02:12:29Z)
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文参考訳（メタデータ） (2024-02-21T04:42:41Z)
Zero-Shot Cross-Lingual Reranking with Large Language Models for Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文参考訳（メタデータ） (2023-12-26T18:38:54Z)
Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文参考訳（メタデータ） (2023-12-13T00:52:15Z)
HuatuoGPT-II, One-stage Training for Medical Adaption of LLMs [61.41790586411816]
HuatuoGPT-IIは、いくつかのベンチマークで、中国の医学領域における最先端のパフォーマンスを示している。さらに、ChatGPTやGPT-4といったプロプライエタリなモデルよりも、特に中国伝統医学において優れています。
論文参考訳（メタデータ） (2023-11-16T10:56:24Z)
PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain [24.411904114158673]
我々は、中国生物医学言語理解評価(CBlue)ベンチマークを大規模なプロンプトチューニングベンチマークであるPromptCBlueに再構築した。我々のベンチマークは、幅広いバイオメディカルタスクにおいて、中国のLCMのマルチタスク能力を評価するのに適したテストベッドであり、オンラインプラットフォームである。
論文参考訳（メタデータ） (2023-10-22T02:20:38Z)
Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。本稿では, MMT における LLM の利点と課題を体系的に検討する。また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文参考訳（メタデータ） (2023-04-10T15:51:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。