論文の概要: VietMed-MCQ: A Consistency-Filtered Data Synthesis Framework for Vietnamese Traditional Medicine Evaluation
- arxiv url: http://arxiv.org/abs/2601.03792v1
- Date: Wed, 07 Jan 2026 10:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.475688
- Title: VietMed-MCQ: A Consistency-Filtered Data Synthesis Framework for Vietnamese Traditional Medicine Evaluation
- Title(参考訳): VietMed-MCQ: ベトナムの伝統医学評価のための一貫性強化データ合成フレームワーク
- Authors: Huynh Trung Kiet, Dao Sy Duy Minh, Nguyen Dinh Ha Duong, Le Hoang Minh Huy, Long Nguyen, Dien Dinh,
- Abstract要約: 強い中国の先行する汎用モデルはベトナム中心のモデルを上回っている。
私たちのコードとデータセットは、低リソースの医療分野の研究を促進するために公開されています。
- 参考スコア(独自算出の注目度): 2.2012643583422347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable proficiency in general medical domains. However, their performance significantly degrades in specialized, culturally specific domains such as Vietnamese Traditional Medicine (VTM), primarily due to the scarcity of high-quality, structured benchmarks. In this paper, we introduce VietMed-MCQ, a novel multiple-choice question dataset generated via a Retrieval-Augmented Generation (RAG) pipeline with an automated consistency check mechanism. Unlike previous synthetic datasets, our framework incorporates a dual-model validation approach to ensure reasoning consistency through independent answer verification, though the substring-based evidence checking has known limitations. The complete dataset of 3,190 questions spans three difficulty levels and underwent validation by one medical expert and four students, achieving 94.2 percent approval with substantial inter-rater agreement (Fleiss' kappa = 0.82). We benchmark seven open-source models on VietMed-MCQ. Results reveal that general-purpose models with strong Chinese priors outperform Vietnamese-centric models, highlighting cross-lingual conceptual transfer, while all models still struggle with complex diagnostic reasoning. Our code and dataset are publicly available to foster research in low-resource medical domains.
- Abstract(参考訳): 大言語モデル(LLM)は、一般的な医療領域において顕著な熟練性を示している。
しかし、ベトナム伝統医学(VTM)のような専門的、文化的に特定の領域では、その性能が著しく低下し、主に高品質な構造化されたベンチマークが不足しているためである。
本稿では、自動整合性チェック機構を備えたレトリーバル拡張生成(RAG)パイプラインを介して生成される、新しい複数選択質問データセットであるVietMed-MCQを紹介する。
従来の合成データセットとは異なり、我々のフレームワークは、独立回答検証による推論整合性を保証するための二重モデル検証アプローチを採用しているが、サブストリングに基づくエビデンスチェックには既知の制限がある。
3,190の質問の完全なデータセットは3つの困難レベルにまたがり、1人の医療専門家と4人の学生によって検証され、94.2%の承認を得た(Fleiss' kappa = 0.82)。
VietMed-MCQで7つのオープンソースモデルをベンチマークする。
結果は、中国語の強い先行する汎用モデルはベトナム中心のモデルより優れており、言語間の概念移動が顕著である一方で、すべてのモデルは複雑な診断的推論に苦慮していることを示している。
私たちのコードとデータセットは、低リソースの医療分野の研究を促進するために公開されています。
関連論文リスト
- MedFact: Benchmarking the Fact-Checking Capabilities of Large Language Models on Chinese Medical Texts [4.809421212365958]
中国の医療ファクトチェックのための新しいベンチマークであるMedFactを紹介する。
さまざまな現実世界のテキストからキュレートされた2,116のエキスパートアノテーション付きインスタンスで構成されている。
専門家のフィードバックによってAI駆動のマルチ基準フィルタリングプロセスが洗練される、ハイブリッドAI-ヒューマンフレームワークを採用している。
論文 参考訳(メタデータ) (2025-09-15T20:46:21Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian [50.767415194856135]
ルーマニア初の大規模医療QAベンチマークであるMedQARoを紹介する。
がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2025-08-22T13:48:37Z) - Towards Domain Specification of Embedding Models in Medicine [1.0713888959520208]
MTEB(Massive Text Embedding Benchmark)に基づく分類,クラスタリング,ペア分類,検索を対象とする51タスクの総合ベンチマークスイートを提案する。
以上の結果から,本手法はロバストな評価枠組みを確立し,各タスクにおける工芸品の代替品の状態を常に上回り,組込み性能が向上することを示した。
論文 参考訳(メタデータ) (2025-07-25T16:15:00Z) - MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning [34.93995619867384]
LLM(Large Language Models)は、既存の医学的質問応答ベンチマークで素晴らしいパフォーマンスを示している。
MedAgentsBenchは、多段階の臨床推論、診断の定式化、および治療計画シナリオを必要とする医学的問題に焦点を当てたベンチマークである。
論文 参考訳(メタデータ) (2025-03-10T15:38:44Z) - HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation [89.3260120072177]
本稿では,放射線学レポート生成のための歴史制約付き大規模言語モデル (HC-LLM) フレームワークを提案する。
胸部X線写真から経時的特徴と経時的特徴を抽出し,疾患の進行を捉える診断報告を行った。
特に,本手法は,テスト中の履歴データなしでも良好に動作し,他のマルチモーダル大規模モデルにも容易に適用可能である。
論文 参考訳(メタデータ) (2024-12-15T06:04:16Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。