Fugu-MT 論文翻訳(概要): CMB: A Comprehensive Medical Benchmark in Chinese

論文の概要: CMB: A Comprehensive Medical Benchmark in Chinese

arxiv url: http://arxiv.org/abs/2308.08833v2
Date: Thu, 4 Apr 2024 15:16:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 20:22:43.463854
Title: CMB: A Comprehensive Medical Benchmark in Chinese
Title（参考訳）: CMB:中国語の総合医療ベンチマーク
Authors: Xidong Wang, Guiming Hardy Chen, Dingjie Song, Zhiyi Zhang, Zhihong Chen, Qingying Xiao, Feng Jiang, Jianquan Li, Xiang Wan, Benyou Wang, Haizhou Li,
Abstract要約: そこで我々は,中国語の包括的医療ベンチマークであるCMB(Comprehensive Medical Benchmark)を提案する。伝統的な中国医学はこの評価に欠かせないものであるが、全体としては成り立たない。われわれは,ChatGPT,GPT-4,中国専用LSM,医療分野に特化したLSMなど,いくつかの大規模LSMを評価した。
参考スコア（独自算出の注目度）: 67.69800156990952
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) provide a possibility to make a great breakthrough in medicine. The establishment of a standardized medical benchmark becomes a fundamental cornerstone to measure progression. However, medical environments in different regions have their local characteristics, e.g., the ubiquity and significance of traditional Chinese medicine within China. Therefore, merely translating English-based medical evaluation may result in \textit{contextual incongruities} to a local region. To solve the issue, we propose a localized medical benchmark called CMB, a Comprehensive Medical Benchmark in Chinese, designed and rooted entirely within the native Chinese linguistic and cultural framework. While traditional Chinese medicine is integral to this evaluation, it does not constitute its entirety. Using this benchmark, we have evaluated several prominent large-scale LLMs, including ChatGPT, GPT-4, dedicated Chinese LLMs, and LLMs specialized in the medical domain. We hope this benchmark provide first-hand experience in existing LLMs for medicine and also facilitate the widespread adoption and enhancement of medical LLMs within China. Our data and code are publicly available at https://github.com/FreedomIntelligence/CMB.
Abstract（参考訳）: 大きな言語モデル(LLM)は、医学に大きなブレークスルーをもたらす可能性がある。標準化された医療ベンチマークの確立は、進歩を測定するための基本的な基盤となる。しかし、各地域の医療環境は、中国における漢方医学の在来性や意義など、その地域的特徴を持っている。したがって、単に英語に基づく医療評価を単に翻訳すれば、ローカルな領域に「textit{contextual incongruities}」をもたらす可能性がある。そこで本研究では,中国語の包括的医療ベンチマークであるCMB(Comprehensive Medical Benchmark)と呼ばれる局所的な医療ベンチマークを提案する。伝統的な中国医学はこの評価に欠かせないものであるが、全体としては成り立たない。本ベンチマークを用いて,ChatGPT,GPT-4,中国専用LSM,医療分野に特化したLSMなど,大規模LSMの大規模評価を行った。本ベンチマークは,既存の医学 LLM の先進的な体験を提供し,中国における医学 LLM の普及と普及を促進することを願っている。私たちのデータとコードはhttps://github.com/FreedomIntelligence/CMBで公開されています。

関連論文リスト

LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。 LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文参考訳（メタデータ） (2025-06-04T15:43:14Z)
MTCMB: A Multi-Task Benchmark Framework for Evaluating LLMs on Knowledge, Reasoning, and Safety in Traditional Chinese Medicine [36.08458917280579]
MTCMBは、知識QA、言語理解、診断推論、処方薬の生成、安全性評価の5つのカテゴリにまたがる12のサブデータセットから構成される。予備的な結果は、現在のLSMは基礎知識でうまく機能するが、臨床推論、処方薬計画、安全コンプライアンスでは不足していることを示している。
論文参考訳（メタデータ） (2025-06-02T02:01:40Z)
TCM-3CEval: A Triaxial Benchmark for Assessing Responses from Large Language Models in Traditional Chinese Medicine [10.74071774496229]
大規模言語モデル (LLMs) は, 様々なNLPタスクや現代医学に優れるが, 伝統的な漢方医学(TCM)における評価は過小評価されている。そこで本研究では,TCM における LLM の評価を行うベンチマークである TCM3CEval について紹介する。全てのモデルはメリディアン・アンド・アクポイント理論や様々なTCMスクールのような特殊性に制限があり、現在の能力と臨床ニーズのギャップを明らかにする。
論文参考訳（メタデータ） (2025-03-10T08:29:15Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models [55.215061531495984]
メドベンチ(MedBench)は、中国の医学LLMの総合的、標準化され、信頼性の高いベンチマークシステムである。まず、MedBenchは43の臨床専門分野をカバーするために、最大の評価データセット(300,901の質問)を組み立てる。第3に、MedBenchは動的評価機構を実装し、ショートカット学習や解答記憶を防ぐ。
論文参考訳（メタデータ） (2024-06-24T02:25:48Z)
Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。 Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文参考訳（メタデータ） (2023-12-20T07:01:49Z)
ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。 ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文参考訳（メタデータ） (2023-11-10T12:25:32Z)
PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain [24.411904114158673]
我々は、中国生物医学言語理解評価(CBlue)ベンチマークを大規模なプロンプトチューニングベンチマークであるPromptCBlueに再構築した。我々のベンチマークは、幅広いバイオメディカルタスクにおいて、中国のLCMのマルチタスク能力を評価するのに適したテストベッドであり、オンラインプラットフォームである。
論文参考訳（メタデータ） (2023-10-22T02:20:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。