論文の概要: VM14K: First Vietnamese Medical Benchmark
- arxiv url: http://arxiv.org/abs/2506.01305v1
- Date: Mon, 02 Jun 2025 04:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.719366
- Title: VM14K: First Vietnamese Medical Benchmark
- Title(参考訳): VM14K:ベトナム初の医療ベンチマーク
- Authors: Thong Nguyen, Duc Nguyen, Minh Dang, Thai Dao, Long Nguyen, Quan H. Nguyen, Dat Nguyen, Kien Tran, Minh Tran,
- Abstract要約: 最初のベトナムの医療質問ベンチマークでは、34の医療専門分野に14,000の多重選択質問が提供されている。
本ベンチマークは,精査試験や臨床記録など,様々な検証可能な資料を用いて構築した。
この設計により、対象言語における言語モデルの医学的理解の幅と深さを評価することができる。
- 参考スコア(独自算出の注目度): 12.442210642499365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical benchmarks are indispensable for evaluating the capabilities of language models in healthcare for non-English-speaking communities,therefore help ensuring the quality of real-life applications. However, not every community has sufficient resources and standardized methods to effectively build and design such benchmark, and available non-English medical data is normally fragmented and difficult to verify. We developed an approach to tackle this problem and applied it to create the first Vietnamese medical question benchmark, featuring 14,000 multiple-choice questions across 34 medical specialties. Our benchmark was constructed using various verifiable sources, including carefully curated medical exams and clinical records, and eventually annotated by medical experts. The benchmark includes four difficulty levels, ranging from foundational biological knowledge commonly found in textbooks to typical clinical case studies that require advanced reasoning. This design enables assessment of both the breadth and depth of language models' medical understanding in the target language thanks to its extensive coverage and in-depth subject-specific expertise. We release the benchmark in three parts: a sample public set (4k questions), a full public set (10k questions), and a private set (2k questions) used for leaderboard evaluation. Each set contains all medical subfields and difficulty levels. Our approach is scalable to other languages, and we open-source our data construction pipeline to support the development of future multilingual benchmarks in the medical domain.
- Abstract(参考訳): 医療ベンチマークは、非英語圏のコミュニティにおける医療における言語モデルの能力を評価するのに不可欠である。
しかし、すべてのコミュニティがそのようなベンチマークを効果的に構築し設計するための十分なリソースと標準化された方法を持っているわけではない。
我々はこの問題に対処するためのアプローチを開発し、34の医療専門分野に14,000の多重選択質問を特徴とするベトナム初の医療質問ベンチマークを作成するためにそれを適用した。
本ベンチマークは, 精査, 臨床記録など, さまざまな検査資料を用いて構築され, 最終的に医療専門家が注釈を付した。
このベンチマークには、教科書で一般的に見られる基礎的な生物学的知識から、高度な推論を必要とする典型的な臨床ケーススタディまで、4つの難易度レベルが含まれている。
この設計により、対象言語における言語モデルの医学的理解の広さと深度の両方を評価することができる。
ベンチマークは、サンプルの公開セット(4k質問)、完全な公開セット(10k質問)、およびリーダボード評価に使用されるプライベートセット(2k質問)の3つの部分に分かれています。
各セットには、すべての医療サブフィールドと難易度が含まれている。
我々のアプローチは他の言語にも拡張性があり、医療分野における将来の多言語ベンチマークの開発を支援するために、データ構築パイプラインをオープンソースにしています。
関連論文リスト
- Polish Medical Exams: A new dataset for cross-lingual medical knowledge transfer assessment [0.865489625605814]
本研究では,ポーランドの医療ライセンシングと専門化試験に基づく新しいベンチマークデータセットを提案する。
ポーランド語と英語のパラレルコーパスのサブセットを含む24,000以上の試験質問を含んでいる。
汎用・ドメイン特化・ポーランド特化モデルを含む最先端のLCMを評価し,その性能を人間医学生と比較した。
論文 参考訳(メタデータ) (2024-11-30T19:02:34Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models [55.215061531495984]
メドベンチ(MedBench)は、中国の医学LLMの総合的、標準化され、信頼性の高いベンチマークシステムである。
まず、MedBenchは43の臨床専門分野をカバーするために、最大の評価データセット(300,901の質問)を組み立てる。
第3に、MedBenchは動的評価機構を実装し、ショートカット学習や解答記憶を防ぐ。
論文 参考訳(メタデータ) (2024-06-24T02:25:48Z) - MedConceptsQA: Open Source Medical Concepts QA Benchmark [0.07083082555458872]
MedConceptsQAは、医療概念質問応答のための専用のオープンソースベンチマークである。
このベンチマークは、診断、手順、薬物など、さまざまな語彙の様々な医学概念に関する質問で構成されている。
各種大規模言語モデルを用いて評価を行った。
論文 参考訳(メタデータ) (2024-05-12T17:54:50Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark
for Language Model Evaluation [22.986061896641083]
MedEvalは、医療のための言語モデルの開発を促進するために、マルチレベル、マルチタスク、マルチドメインの医療ベンチマークである。
22,779の文と21,228のレポートを収集し、専門家のアノテーションを複数のレベルで提供し、データの詳細な使用可能性を提供します。
論文 参考訳(メタデータ) (2023-10-21T18:59:41Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。