論文の概要: PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain
- arxiv url: http://arxiv.org/abs/2310.14151v1
- Date: Sun, 22 Oct 2023 02:20:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 01:30:54.079875
- Title: PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain
- Title(参考訳): PromptCBLUE: 医学領域のための中国のプロンプトチューニングベンチマーク
- Authors: Wei Zhu and Xiaoling Wang and Huanran Zheng and Mosha Chen and Buzhou
Tang
- Abstract要約: 我々は、中国生物医学言語理解評価(CBlue)ベンチマークを大規模なプロンプトチューニングベンチマークであるPromptCBlueに再構築した。
我々のベンチマークは、幅広いバイオメディカルタスクにおいて、中国のLCMのマルチタスク能力を評価するのに適したテストベッドであり、オンラインプラットフォームである。
- 参考スコア(独自算出の注目度): 24.411904114158673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical language understanding benchmarks are the driving forces for
artificial intelligence applications with large language model (LLM) back-ends.
However, most current benchmarks: (a) are limited to English which makes it
challenging to replicate many of the successes in English for other languages,
or (b) focus on knowledge probing of LLMs and neglect to evaluate how LLMs
apply these knowledge to perform on a wide range of bio-medical tasks, or (c)
have become a publicly available corpus and are leaked to LLMs during
pre-training. To facilitate the research in medical LLMs, we re-build the
Chinese Biomedical Language Understanding Evaluation (CBLUE) benchmark into a
large scale prompt-tuning benchmark, PromptCBLUE. Our benchmark is a suitable
test-bed and an online platform for evaluating Chinese LLMs' multi-task
capabilities on a wide range bio-medical tasks including medical entity
recognition, medical text classification, medical natural language inference,
medical dialogue understanding and medical content/dialogue generation. To
establish evaluation on these tasks, we have experimented and report the
results with the current 9 Chinese LLMs fine-tuned with differtent fine-tuning
techniques.
- Abstract(参考訳): バイオメディカル言語理解ベンチマークは、大規模言語モデル(LLM)バックエンドを持つ人工知能アプリケーションの推進力である。
しかし現在のベンチマークのほとんどは
(a)英語に限られており、他の言語で英語での成功の多くを再現することは困難である。
b) LLMの知識を探究することに集中し、LLMがこれらの知識を幅広いバイオメディカル・タスクに応用する方法を評価すること、又は
(c)は、公開コーパスとなり、事前トレーニング中にLLMにリークされる。
医学LLMの研究を容易にするため,中国バイオメディカル言語理解評価(CBLUE)ベンチマークを大規模プロンプトチューニングベンチマークであるPromptCBLUEに再構築した。
本ベンチマークは, 医学的実体認識, 医学的テキスト分類, 医学的自然言語推論, 医学的対話理解, 医学的内容・対話生成など, 幅広いバイオメディカルタスクにおいて, 中国語LLMのマルチタスク能力を評価するための適切なテストベッドおよびオンラインプラットフォームである。
本研究は,これらの課題を評価するために,現在の9つの中国語LLMに異なる微調整技術を適用し,その結果を報告する。
関連論文リスト
- MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models [55.215061531495984]
メドベンチ(MedBench)は、中国の医学LLMの総合的、標準化され、信頼性の高いベンチマークシステムである。
まず、MedBenchは43の臨床専門分野をカバーするために、最大の評価データセット(300,901の質問)を組み立てる。
第3に、MedBenchは動的評価機構を実装し、ショートカット学習や解答記憶を防ぐ。
論文 参考訳(メタデータ) (2024-06-24T02:25:48Z) - MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge [4.8004472307210255]
大規模言語モデル (LLMs) はドメイン間で優れており、医療評価ベンチマークで顕著なパフォーマンスを提供している。
しかし、実際の医療シナリオにおける報告されたパフォーマンスと実践的効果の間には、依然として大きなギャップがある。
医療知識のエンコーディングと習得におけるLLMの程度と範囲を検討するための,新しい評価フレームワークであるMultifacetEvalを開発した。
論文 参考訳(メタデータ) (2024-06-05T04:15:07Z) - MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering [8.110978727364397]
大規模言語モデル(LLM)は、人工知能技術の発展を促進する可能性を秘めている。
本稿では,MedExpQAについて述べる。MedExpQAは,医学質問応答におけるLSMを評価するための,医学試験に基づく最初の多言語ベンチマークである。
論文 参考訳(メタデータ) (2024-04-08T15:03:57Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - CMB: A Comprehensive Medical Benchmark in Chinese [67.69800156990952]
そこで我々は,中国語の包括的医療ベンチマークであるCMB(Comprehensive Medical Benchmark)を提案する。
伝統的な中国医学はこの評価に欠かせないものであるが、全体としては成り立たない。
われわれは,ChatGPT,GPT-4,中国専用LSM,医療分野に特化したLSMなど,いくつかの大規模LSMを評価した。
論文 参考訳(メタデータ) (2023-08-17T07:51:23Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。