論文の概要: ChiMed 2.0: Advancing Chinese Medical Dataset in Facilitating Large Language Modeling
- arxiv url: http://arxiv.org/abs/2507.15275v1
- Date: Mon, 21 Jul 2025 06:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.281273
- Title: ChiMed 2.0: Advancing Chinese Medical Dataset in Facilitating Large Language Modeling
- Title(参考訳): ChiMed 2.0: 大規模言語モデリングにおける中国の医療データセットの向上
- Authors: Yuanhe Tian, Junjie Liu, Zhizhou Kou, Yuxiang Li, Yan Song,
- Abstract要約: 既存の中国の医療データセットは、サイズが制限され、ドメインカバレッジが制限されている。
ChiMed 2.0には204.4万の漢字が含まれており、伝統的な漢方医学の古典と現代の医学データの両方をカバーしている。
- 参考スコア(独自算出の注目度): 18.816065236545615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building high-quality data resources is crucial for advancing artificial intelligence research and applications in specific domains, particularly in the Chinese medical domain. Existing Chinese medical datasets are limited in size and narrow in domain coverage, falling short of the diverse corpora required for effective pre-training. Moreover, most datasets are designed solely for LLM fine-tuning and do not support pre-training and reinforcement learning from human feedback (RLHF). In this paper, we propose a Chinese medical dataset named ChiMed 2.0, which extends our previous work ChiMed, and covers data collected from Chinese medical online platforms and generated by LLMs. ChiMed 2.0 contains 204.4M Chinese characters covering both traditional Chinese medicine classics and modern general medical data, where there are 164.8K documents for pre-training, 351.6K question-answering pairs for supervised fine-tuning (SFT), and 41.7K preference data tuples for RLHF. To validate the effectiveness of our approach for training a Chinese medical LLM, we conduct further pre-training, SFT, and RLHF experiments on representative general domain LLMs and evaluate their performance on medical benchmark datasets. The results show performance gains across different model scales, validating the dataset's effectiveness and applicability.
- Abstract(参考訳): 高品質なデータリソースの構築は、特に中国の医療領域において、特定の領域における人工知能の研究や応用の進展に不可欠である。
既存の中国の医療データセットは、ドメインカバレッジにおいてサイズが限られており、効果的な事前トレーニングに必要な多様なコーパスに劣っている。
さらに、ほとんどのデータセットはLLMファインチューニング専用に設計されており、人間のフィードバック(RLHF)からの事前学習や強化学習をサポートしていない。
本稿では,中国の医療オンラインプラットフォームから収集したデータとLCMによって生成されたデータを網羅する,ChiMed 2.0という中国の医療データセットを提案する。
ChiMed 2.0には204.4万の漢字があり、中国医学の古典と現代医学のデータの両方をカバーしており、164.8Kの事前トレーニング用文書、教師付き微調整用351.6Kの質問回答ペア、RLHF用41.7Kの好みデータタプルがある。
中国医学 LLM のトレーニングにおけるアプローチの有効性を検証するため,汎用 LLM の事前トレーニング,SFT および RLHF 実験を行い,医療ベンチマークデータセット上での性能評価を行った。
結果は、異なるモデルスケールでのパフォーマンス向上を示し、データセットの有効性と適用性を検証する。
関連論文リスト
- Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks [7.822971505079421]
本研究は、7つのアラビア医療タスクからなる新しいベンチマークデータセットであるMedArabiQを紹介する。
筆者らはまず,過去の医学試験と公開データセットを用いてデータセットを構築した。
次に、バイアス緩和を含む様々なLCM機能を評価するために、異なる修正を導入した。
論文 参考訳(メタデータ) (2025-05-06T11:07:26Z) - FineMedLM-o1: Enhancing Medical Knowledge Reasoning Ability of LLM from Supervised Fine-Tuning to Test-Time Training [20.259483872569987]
FineMedLM-o1は、深い推論能力を持つ医療用大規模言語モデルである。
テストタイムトレーニング(TTT)を初めて医療領域に導入し、ドメイン適応を容易にし、信頼性と正確な推論を確実にする。
プロジェクトとデータはGitHubでリリースされる。
論文 参考訳(メタデータ) (2025-01-16T00:19:19Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - Aqulia-Med LLM: Pioneering Full-Process Open-Source Medical Language Models [8.252044870864523]
我々はAquilaをベースとしたバイリンガル医療用LLMであるAquila-Medを提案する。
我々は,中国語と英語の大規模医療データセットを構築し,事前トレーニングを継続し,高品質なSFTデータセットを構築した。
Aquila-Medは、シングルターン、マルチターンダイアログ、医療マルチチョイスの質問で顕著な結果を得る。
論文 参考訳(メタデータ) (2024-06-18T01:30:07Z) - Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。
従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。
EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文 参考訳(メタデータ) (2024-06-17T08:40:36Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - HuatuoGPT-II, One-stage Training for Medical Adaption of LLMs [61.41790586411816]
HuatuoGPT-IIは、いくつかのベンチマークで、中国の医学領域における最先端のパフォーマンスを示している。
さらに、ChatGPTやGPT-4といったプロプライエタリなモデルよりも、特に中国伝統医学において優れています。
論文 参考訳(メタデータ) (2023-11-16T10:56:24Z) - ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。
ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。
我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文 参考訳(メタデータ) (2023-11-10T12:25:32Z) - Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language
Model through Expert Feedback and Real-world Multi-turn Dialogue [4.558040877516838]
我々は、連続事前学習(SFT)から人間フィードバックからの強化学習(RLHF)まで、トレーニングパイプライン全体を実装した最初の中国医学大言語モデル(LLM)であるZhongjingを紹介した。
我々は, 複雑な対話能力と積極的な調査開始能力を大幅に向上させる, 7,000 人の医師と患者との対話 CMtMedQA の多ターン医療対話データセットを構築した。
論文 参考訳(メタデータ) (2023-08-07T12:56:13Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。