論文の概要: MedSynth: Realistic, Synthetic Medical Dialogue-Note Pairs
- arxiv url: http://arxiv.org/abs/2508.01401v1
- Date: Sat, 02 Aug 2025 15:18:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.863411
- Title: MedSynth: Realistic, Synthetic Medical Dialogue-Note Pairs
- Title(参考訳): MedSynth: リアルでシンセティックな医療対話-ノートペア
- Authors: Ahmad Rezaie Mianroodi, Amirali Rezaie, Niko Grisel Todorov, Cyril Rakovski, Frank Rudzicz,
- Abstract要約: Med Synthは合成医療対話とノートのデータセットである。
ダイアログ・ツー・ノート(Dial-2-Note)タスクとノート・ツー・ダイアログ(Note-2-Dial)タスクを前進させるように設計されている。
- 参考スコア(独自算出の注目度): 12.581208099743924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Physicians spend significant time documenting clinical encounters, a burden that contributes to professional burnout. To address this, robust automation tools for medical documentation are crucial. We introduce MedSynth -- a novel dataset of synthetic medical dialogues and notes designed to advance the Dialogue-to-Note (Dial-2-Note) and Note-to-Dialogue (Note-2-Dial) tasks. Informed by an extensive analysis of disease distributions, this dataset includes over 10,000 dialogue-note pairs covering over 2000 ICD-10 codes. We demonstrate that our dataset markedly enhances the performance of models in generating medical notes from dialogues, and dialogues from medical notes. The dataset provides a valuable resource in a field where open-access, privacy-compliant, and diverse training data are scarce. Code is available at https://github.com/ahmadrezarm/MedSynth/tree/main and the dataset is available at https://huggingface.co/datasets/Ahmad0067/MedSynth.
- Abstract(参考訳): 医師は、専門的な燃え尽き症候群に寄与する重荷である臨床遭遇の文書化にかなりの時間を費やす。
そのためには、医療ドキュメントのための堅牢な自動化ツールが不可欠だ。
ダイアログ・ツー・ノート(Dial-2-Note)タスクとノート・ツー・ダイアログ(Note-2-Dial)タスクを前進させるために設計された,合成医療対話とノートの新しいデータセットであるMedSynthを紹介する。
このデータセットは、病気の分布を広範囲に分析することにより、2000以上のICD-10コードをカバーする1万以上の対話ノートペアを含んでいる。
我々のデータセットは,対話から医療ノートを生成する際のモデルの性能を著しく向上し,医療ノートからの対話を著しく向上させることを示した。
このデータセットは、オープンアクセス、プライバシ準拠、および多様なトレーニングデータが不足している分野において、貴重なリソースを提供する。
コードはhttps://github.com/ahmadrezarm/MedSynth/tree/mainで、データセットはhttps://huggingface.co/datasets/Ahmad0067/MedSynthで入手できる。
関連論文リスト
- MedicalNarratives: Connecting Medical Vision and Language with Localized Narratives [11.242775987217032]
MedicalNarrativesは、Think-Aloudの研究で収集されたデータと、本質的に類似した医療教育ビデオから収集されたデータセットである。
我々のデータセットは、ビデオと記事から4.7Mの画像テキストペアを含み、100万のサンプルには、トレースとバウンディングボックスの形で密集したアノテーションが含まれている。
MedicalNarrativesの有用性を評価するために、12の医療ドメインにまたがるデータセットを用いて、CLIPアーキテクチャに基づいてGenMedClipをトレーニングする。
論文 参考訳(メタデータ) (2025-01-07T23:32:05Z) - MediTOD: An English Dialogue Dataset for Medical History Taking with Comprehensive Annotations [23.437292621092823]
本研究は,医学史研究のための英語における医師と患者との対話のデータセットであるMedictoDを紹介する。
医療領域に合わせたアンケートに基づくラベリング手法を考案する。
そして、医療専門家は高品質の包括的なアノテーションでデータセットを作成する。
論文 参考訳(メタデータ) (2024-10-18T06:38:22Z) - MedSyn: LLM-based Synthetic Medical Text Generation Framework [0.27376226833693]
MedSynは,大規模言語モデルと医療知識グラフを統合する新しい医用テキスト生成フレームワークである。
我々は,MKGを用いて先行医療情報を抽出し,GPT-4および微調整LLaMAモデルを用いた合成臨床ノートを生成する。
本研究は, 合成データは, 合成データのない設定と比較して, 重要かつ困難な符号の分類精度を最大17.8%向上させることができることを示唆している。
論文 参考訳(メタデータ) (2024-08-04T15:07:44Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Medical Dialogue Generation via Dual Flow Modeling [9.328694317877169]
医療対話システム(MDS)は、患者に診断や処方薬などの医療サービスを提供することを目的としている。
これまでの研究は主に、上記医療機関を重要な対話履歴情報として抽出することでこの問題に対処した。
本研究は, 医療機関と医師の対話行動の推移を各ターンで捉えることも重要であると論じる。
論文 参考訳(メタデータ) (2023-05-29T14:23:34Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - A Benchmark for Automatic Medical Consultation System: Frameworks, Tasks
and Datasets [70.32630628211803]
本稿では,医師と患者との対話理解とタスク指向インタラクションという,医療相談の自動化を支援する2つの枠組みを提案する。
マルチレベルな微粒なアノテーションを付加した新しい大規模医療対話データセットが導入された。
本稿では,各タスクに対するベンチマーク結果のセットを報告し,データセットのユーザビリティを示し,今後の研究のベースラインを設定する。
論文 参考訳(メタデータ) (2022-04-19T16:43:21Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z) - On the Generation of Medical Dialogues for COVID-19 [60.63485429268256]
新型コロナウイルス関連の症状を患ったり、危険因子に晒されたりする人は、医師に相談する必要がある。
医療専門家が不足しているため、多くの人がオンライン相談を受けることができない。
本研究の目的は、新型コロナウイルス関連の相談を提供する医療対話システムの構築である。
論文 参考訳(メタデータ) (2020-05-11T21:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。