論文の概要: Leveraging Online Data to Enhance Medical Knowledge in a Small Persian Language Model
- arxiv url: http://arxiv.org/abs/2505.16000v4
- Date: Fri, 03 Oct 2025 17:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.75641
- Title: Leveraging Online Data to Enhance Medical Knowledge in a Small Persian Language Model
- Title(参考訳): オンラインデータを活用した小ペルシア語モデルにおける医学的知識の育成
- Authors: Mehrdad Ghassabi, Pedram Rostami, Hamidreza Baradaran Kashani, Amirhossein Poursina, Zahra Kazemi, Milad Tavakoli,
- Abstract要約: そこで本研究では,20万名の医師と医師のQ&Aペアと,90万名の医療雑誌のクロールコーパスの60%を新たに収集したデータセットについて紹介した。
パラメータ効率の良い微調整手法を用いて,ベースラインモデルの医学的知識を高めた。
ベンチマーク評価により, 微調整モデルにより, 医療質問応答の精度が向上することが示された。
- 参考スコア(独自算出の注目度): 2.339805471804333
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid advancement of language models has demonstrated the potential of artificial intelligence in the healthcare industry. However, small language models struggle with specialized domains in low-resource languages like Persian. While numerous medical-domain websites exist in Persian, no curated dataset or corpus has been available making ours the first of its kind. This study introduces a newly curated dataset comprising 20k doctor-patient Q\&A pairs and 60\% of a 90-million-token crawled corpus from medical magazines. Using a parameter-efficient fine-tuning approach, we enhanced the medical knowledge of the baseline model, aya-expanse-8b. Benchmark evaluations demonstrate that the fine-tuned model achieves improved accuracy in medical question answering and successfully passed the Iranian Basic Medical Science Entrance Exam (IBSEE) in September 2023, which the baseline model did not. Additionally, the fine-tuned model improved Persian-translated MMLU accuracy by an average of 2.67\%. This work highlights the potential of leveraging open-access online data to enrich small language models in medical fields, providing a novel solution for Persian medical AI applications suitable for resource-constrained environments. Future research could explore multimodal input to further enhance performance.
- Abstract(参考訳): 言語モデルの急速な進歩は、医療産業における人工知能の可能性を示している。
しかし、小さな言語モデルはペルシャ語のような低リソース言語における特殊なドメインと競合する。
ペルシアには多くの医療ドメインのウェブサイトがあるが、キュレートされたデータセットやコーパスは提供されていない。
そこで本研究では,2000万名の医師と医師のQ&Aペアと,医療雑誌から収集した90万件のクロールコーパスの60倍を新たに収集したデータセットについて紹介した。
パラメータ効率の良い微調整手法を用いて,ベースラインモデルaya-expanse-8bの医学的知識を高めた。
ベンチマーク評価の結果,2023年9月のイラン基礎医学紹介試験(IBSEE)に合格した。
さらに、微調整されたモデルでは、ペルシア語で翻訳されたMMLUの精度が平均2.67\%向上した。
この研究は、オープンアクセスのオンラインデータを活用して医療分野の小さな言語モデルを強化し、リソース制約のある環境に適したペルシアの医療AIアプリケーションに新しいソリューションを提供する可能性を強調している。
今後の研究は、パフォーマンスをさらに向上するためのマルチモーダルインプットを探求する可能性がある。
関連論文リスト
- A Large-Scale Vision-Language Dataset Derived from Open Scientific Literature to Advance Biomedical Generalist AI [70.06771291117965]
PubMed Central Open Accessサブセットから派生したオープンソースのデータセットであるBiomedicaを紹介する。
Biomedicaには600万以上の科学論文と2400万の画像テキストペアが含まれている。
私たちは、Webサーバを通じてスケーラブルなストリーミングと検索APIを提供し、AIシステムとのシームレスな統合を容易にします。
論文 参考訳(メタデータ) (2025-03-26T05:56:46Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - Evaluation of Language Models in the Medical Context Under Resource-Constrained Settings [10.39989311209284]
医療分野における言語モデルに関する総合的な調査を行った。
医療用テキスト分類と条件付きテキスト生成のためのサブセットの評価を行った。
その結果、タスク全体での顕著なパフォーマンスが明らかとなり、特定のモデルが医療知識を含む可能性について評価された。
論文 参考訳(メタデータ) (2024-06-24T12:52:02Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP [9.432205523734707]
医療用語を患者に親しみやすい平易な言語に簡略化することを目的とした,レイ定義の自動生成という新たなタスクを導入する。
このデータセットは、5万以上のユニークな(医療用語、日常の定義)ペアと30万の言及からなる。
また、データフィルタリング、拡張、選択を相乗化してデータ品質を改善する、データ中心のHuman-AIパイプラインも開発しました。
論文 参考訳(メタデータ) (2023-12-24T23:01:00Z) - ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model
Meta-AI (LLaMA) Using Medical Domain Knowledge [8.584905227066034]
本研究の目的は,医療アドバイスの精度を向上した専門言語モデルを作ることであった。
そこで我々は,10万件の患者-医師対話の大規模データセットを用いて,大規模言語モデルメタAI(LLaMA)の適応と精錬を行った。
実際の患者と医師の相互作用によるモデルの微調整により、患者のニーズを理解し、アドバイスを提供する能力は大幅に向上した。
論文 参考訳(メタデータ) (2023-03-24T15:29:16Z) - Localising In-Domain Adaptation of Transformer-Based Biomedical Language
Models [0.987336898133886]
我々は、英語以外の言語で生物医学的言語モデルを導出するための2つのアプローチを提案する。
1つは、英語リソースのニューラルネットワーク翻訳に基づくもので、品質よりも量を好む。
もう一つは、イタリア語で書かれた高品位で細いスコープのコーパスに基づいており、量よりも質を優先している。
論文 参考訳(メタデータ) (2022-12-20T16:59:56Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Multilingual Medical Question Answering and Information Retrieval for
Rural Health Intelligence Access [1.0499611180329804]
いくつかの発展途上国の農村部では、高品質な医療、医療インフラ、専門的診断へのアクセスはほとんど利用できない。
このような医療アクセスの欠如、患者の以前の健康記録の欠如、および先住民語での情報の置換によるいくつかの死を、容易に防ぐことができる。
本稿では,機械学習とNLP(Natural Language Processing)技術における現象の進展を利用して,低リソース・多言語・予備的ファーストポイント・オブ・コンタクト・メディカルアシスタントを設計するアプローチについて述べる。
論文 参考訳(メタデータ) (2021-06-02T16:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。