論文の概要: Scaling Arabic Medical Chatbots Using Synthetic Data: Enhancing Generative AI with Synthetic Patient Records
- arxiv url: http://arxiv.org/abs/2509.10108v1
- Date: Fri, 12 Sep 2025 09:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.044366
- Title: Scaling Arabic Medical Chatbots Using Synthetic Data: Enhancing Generative AI with Synthetic Patient Records
- Title(参考訳): 合成データを用いたアラビア語医療チャットボットのスケーリング:合成患者記録による生成AIの強化
- Authors: Abdulrahman Allam, Seif Ahmed, Ali Hamdi, Khaled Shaban,
- Abstract要約: 学習コーパスを10万レコードに拡張するためのスケーラブルな合成データ拡張戦略を提案する。
元のデータセットの構造を基盤とした,コンテキスト的に関連性があり,医療的に整合性のある合成質問応答ペアを8万個生成した。
- 参考スコア(独自算出の注目度): 0.4666493857924357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of medical chatbots in Arabic is significantly constrained by the scarcity of large-scale, high-quality annotated datasets. While prior efforts compiled a dataset of 20,000 Arabic patient-doctor interactions from social media to fine-tune large language models (LLMs), model scalability and generalization remained limited. In this study, we propose a scalable synthetic data augmentation strategy to expand the training corpus to 100,000 records. Using advanced generative AI systems ChatGPT-4o and Gemini 2.5 Pro we generated 80,000 contextually relevant and medically coherent synthetic question-answer pairs grounded in the structure of the original dataset. These synthetic samples were semantically filtered, manually validated, and integrated into the training pipeline. We fine-tuned five LLMs, including Mistral-7B and AraGPT2, and evaluated their performance using BERTScore metrics and expert-driven qualitative assessments. To further analyze the effectiveness of synthetic sources, we conducted an ablation study comparing ChatGPT-4o and Gemini-generated data independently. The results showed that ChatGPT-4o data consistently led to higher F1-scores and fewer hallucinations across all models. Overall, our findings demonstrate the viability of synthetic augmentation as a practical solution for enhancing domain-specific language models in-low resource medical NLP, paving the way for more inclusive, scalable, and accurate Arabic healthcare chatbot systems.
- Abstract(参考訳): アラビア語における医療チャットボットの開発は、大規模で高品質な注釈付きデータセットの不足によって著しく制限されている。
以前の取り組みではソーシャルメディアから微調整された大規模言語モデル(LLM)への2万のアラビア人の患者と医師のインタラクションのデータセットがコンパイルされていたが、モデルのスケーラビリティと一般化は限定的であった。
本研究では,学習コーパスを10万レコードに拡張するスケーラブルな合成データ拡張戦略を提案する。
先進的な生成AIシステムChatGPT-4oとGemini 2.5 Proを使用して、元のデータセットの構造に基づいて、コンテキスト的に関連性があり、医療的に一貫性のある合成質問応答ペアを8万個生成しました。
これらの合成サンプルは、意味的にフィルタリングされ、手動で検証され、トレーニングパイプラインに統合された。
Mistral-7B と AraGPT2 を含む5つの LLM を微調整し,BERTScore 測定値とエキスパート駆動定性評価値を用いて評価した。
そこで我々は,ChatGPT-4oとGemini生成データを独立に比較したアブレーション実験を行った。
その結果,ChatGPT-4oデータはF1スコアが高く,全モデルに対する幻覚が少なかった。
本研究は, 総合的, 拡張的, 正確なアラビア医療チャットボットシステムの実現に向けて, 低リソース医療NLPにおけるドメイン固有言語モデルの拡張のための実践的ソリューションとして, 合成拡張の有効性を示すものである。
関連論文リスト
- Improving Performance, Robustness, and Fairness of Radiographic AI Models with Finely-Controllable Synthetic Data [14.791557943114737]
RoentGen-v2は胸部X線写真のためのテキスト・画像拡散モデルである。
人口動態条件付き臨床的にもっともらしい画像を生成する。
我々は、この大規模な合成データセットを用いて、下流疾患分類モデルのための最適なトレーニングパイプラインを評価する。
論文 参考訳(メタデータ) (2025-08-22T20:30:58Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - An Integrated Approach to AI-Generated Content in e-health [0.0]
合成医用画像とテキストデータを生成するためのエンドツーエンドのクラス条件付きフレームワークを提案する。
我々のフレームワークはDiffusion and Large Language Models(LLM)を統合し、現実世界のパターンによくマッチするデータを生成する。
論文 参考訳(メタデータ) (2025-01-18T14:35:29Z) - Can Medical Vision-Language Pre-training Succeed with Purely Synthetic Data? [8.775988650381397]
医療ビジョン言語による事前トレーニングモデルのトレーニングには、ペアで高品質な画像テキストデータを備えたデータセットが必要である。
大規模言語モデル(LLM)と拡散モデルの最近の進歩により,大規模合成画像テキストペアの生成が可能になった。
我々は、既製の生成モデルを用いて、合成放射線学レポートとチェストX線(CXR)画像のペアを作成するとともに、多種多様な高品質な合成データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-17T13:11:07Z) - MedSyn: LLM-based Synthetic Medical Text Generation Framework [0.27376226833693]
MedSynは,大規模言語モデルと医療知識グラフを統合する新しい医用テキスト生成フレームワークである。
我々は,MKGを用いて先行医療情報を抽出し,GPT-4および微調整LLaMAモデルを用いた合成臨床ノートを生成する。
本研究は, 合成データは, 合成データのない設定と比較して, 重要かつ困難な符号の分類精度を最大17.8%向上させることができることを示唆している。
論文 参考訳(メタデータ) (2024-08-04T15:07:44Z) - Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks [0.7071166713283337]
私たちは機械学習モデルをトレーニングするのに十分な規模のデータセットを作成しました。
私たちのゴールは自閉症の基準に対応する行動のラベル付けです。
データの増大はリコールを13%増加させたが、精度は16%低下した。
論文 参考訳(メタデータ) (2024-05-08T03:18:12Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。