論文の概要: JMedBench: A Benchmark for Evaluating Japanese Biomedical Large Language Models
- arxiv url: http://arxiv.org/abs/2409.13317v1
- Date: Fri, 20 Sep 2024 08:25:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:40:00.764013
- Title: JMedBench: A Benchmark for Evaluating Japanese Biomedical Large Language Models
- Title(参考訳): JMedBench: 日本の生物医学大言語モデル評価ベンチマーク
- Authors: Junfeng Jiang, Jiahao Huang, Akiko Aizawa,
- Abstract要約: 本稿では,日本の生物医学大言語モデル(LLM)を評価するための新しいベンチマークを提案する。
実験の結果,以下のことが示唆された。
日本人の生物医学的知識をより深く理解したLLMは、日本の生物医学的タスクにおいて、より良いパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 29.92429306565324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in Japanese large language models (LLMs) primarily focus on general domains, with fewer advancements in Japanese biomedical LLMs. One obstacle is the absence of a comprehensive, large-scale benchmark for comparison. Furthermore, the resources for evaluating Japanese biomedical LLMs are insufficient. To advance this field, we propose a new benchmark including eight LLMs across four categories and 20 Japanese biomedical datasets across five tasks. Experimental results indicate that: (1) LLMs with a better understanding of Japanese and richer biomedical knowledge achieve better performance in Japanese biomedical tasks, (2) LLMs that are not mainly designed for Japanese biomedical domains can still perform unexpectedly well, and (3) there is still much room for improving the existing LLMs in certain Japanese biomedical tasks. Moreover, we offer insights that could further enhance development in this field. Our evaluation tools tailored to our benchmark as well as the datasets are publicly available in https://huggingface.co/datasets/Coldog2333/JMedBench to facilitate future research.
- Abstract(参考訳): 日本語大言語モデル(LLM)の最近の発展は、主に一般ドメインに焦点を当てており、日本の生物医学 LLM の進歩は少ない。
ひとつの障害は、比較のための包括的な大規模ベンチマークがないことだ。
また, バイオメディカルLLMを評価するための資源も不十分である。
そこで本研究では,4つのカテゴリに8つのLSMと5つのタスクにまたがる20のバイオメディカルデータセットを含む新しいベンチマークを提案する。
実験結果から,(1)日本の生物医学的課題において,日本の生物医学的知識をより深く理解した LLM がより優れた性能を発揮すること,(2)日本の生物医学的領域を主目的としない LLM が相変わらず良好な性能を発揮すること,(3) 日本の生物医学的課題において既存の LLM を改良する余地がまだ残っていること,などが示唆された。
さらに、この分野の発展をさらに促進できる洞察を提供する。
我々の評価ツールはベンチマークに合わせており、データセットはhttps://huggingface.co/datasets/Coldog2333/JMedBenchで公開されています。
関連論文リスト
- Development and bilingual evaluation of Japanese medical large language model within reasonably low computational resources [0.0]
本稿では,近年の7Bモデルに基づく医療適応について述べる。
日本語医学データセットに基づく英語中心ベースモデルの微調整により,両言語のスコアが向上することが判明した。
論文 参考訳(メタデータ) (2024-09-18T08:07:37Z) - Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data [3.469567586411153]
大規模言語モデル (LLM) は、生物医学的応用の可能性を示しており、それらをドメイン固有のデータに微調整する努力に繋がった。
本研究は, バイオメディカル微調整LDMの多種多様な臨床課題における汎用性に対する性能評価を行った。
論文 参考訳(メタデータ) (2024-08-25T13:36:22Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models [55.215061531495984]
メドベンチ(MedBench)は、中国の医学LLMの総合的、標準化され、信頼性の高いベンチマークシステムである。
まず、MedBenchは43の臨床専門分野をカバーするために、最大の評価データセット(300,901の質問)を組み立てる。
第3に、MedBenchは動的評価機構を実装し、ショートカット学習や解答記憶を防ぐ。
論文 参考訳(メタデータ) (2024-06-24T02:25:48Z) - 70B-parameter large language models in Japanese medical question-answering [0.0]
本研究では,日本語医学的質問回答データセットを用いた指導指導が,日本の医学的ライセンス試験の解決能力を大幅に向上させることを示す。
特に、日本語中心のモデルでは、英語中心のモデルに比べて、指導調律による改良が顕著に進んでいる。
論文 参考訳(メタデータ) (2024-06-21T06:04:10Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - Taiyi: A Bilingual Fine-Tuned Large Language Model for Diverse
Biomedical Tasks [19.091278630792615]
既存のバイオメディカル大規模言語モデル(LLMs)は、単言語でのバイオメディカル質問応答や会話タスクのパフォーマンス向上に重点を置いている。
多様なバイオメディカルタスクのためのバイリンガル微調整LDMであるTaiyiについて紹介する。
論文 参考訳(メタデータ) (2023-11-20T08:51:30Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - A Comprehensive Evaluation of Large Language Models on Benchmark
Biomedical Text Processing Tasks [2.5027382653219155]
本稿では,バイオメディカル・タスクのベンチマークにおいて,LLM(Large Language Models)の性能を評価することを目的とする。
我々の知る限りでは、生物医学領域における様々なLSMの広範な評価と比較を行う最初の研究である。
論文 参考訳(メタデータ) (2023-10-06T14:16:28Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。