論文の概要: SynGP500: A Clinically-Grounded Synthetic Dataset of Australian General Practice Medical Notes
- arxiv url: http://arxiv.org/abs/2512.15259v1
- Date: Wed, 17 Dec 2025 10:04:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.929569
- Title: SynGP500: A Clinically-Grounded Synthetic Dataset of Australian General Practice Medical Notes
- Title(参考訳): SynGP500: オーストラリアにおける一般医療用ノートの臨床データ集
- Authors: Piyawoot Songsiritat,
- Abstract要約: SynGP500は, オーストラリアにおける500の総合医療ノートのクリニカル・カレードコレクションである。
このデータセットは、カリキュラムベースの臨床幅(RACGP 2022 Curriculum)、疫学的に校正された有病率(BEACH study)、多様な相談コンテキストを統合している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SynGP500, a clinician-curated collection of 500 synthetic Australian general practice medical notes. The dataset integrates curriculum-based clinical breadth (RACGP 2022 Curriculum), epidemiologically-calibrated prevalence (BEACH study), and diverse consultation contexts. This approach systematically includes both common presentations and less-common curriculum-specified conditions that GPs must recognize but appear infrequently in single practice populations, potentially supporting more generalizable model training than datasets constrained by naturally occurring case distributions. SynGP500 is messy by design, reflecting the authentic complexity of healthcare delivery: telegraphic documentation, typos, patient non-adherence, socioeconomic barriers, and clinician-patient disagreements, unlike sanitized synthetic datasets that obscure clinical realities. Multi-faceted validation demonstrates dataset quality through epidemiological alignment with real Australian GP consultation patterns (BEACH study), stylometric analysis confirming high linguistic variation, semantic diversity analysis demonstrating broad coverage, and exploratory downstream evaluation using self-supervised medical concept extraction, showing F1 improvements. SynGP500 addresses a critical national gap, providing researchers and educators with a resource for developing and evaluating clinical NLP methods for Australian general practice while inherently protecting patient privacy.
- Abstract(参考訳): SynGP500は, オーストラリアにおける500の総合医療ノートのクリニカル・カレードコレクションである。
このデータセットは、カリキュラムベースの臨床幅(RACGP 2022 Curriculum)、疫学的に校正された有病率(BEACH study)、多様なコンサルテーションコンテキストを統合している。
このアプローチは、GPが認識しなければならない共通のプレゼンテーションと、あまり一般的でないカリキュラム指定条件の両方を体系的に含み、自然に発生するケース分布によって制約されるデータセットよりもより一般化可能なモデルトレーニングを支援する可能性がある。
SynGP500は、医療提供の真の複雑さを反映した設計上の混乱を反映し、テレグラフィック文書、タイポス、患者非整合性、社会経済的障壁、臨床医と患者の不一致を反映している。
多面的検証は、実際のオーストラリアGPコンサルテーションパターン(BEACH研究)との疫学的アライメントによるデータセット品質の実証、高い言語的変動を確認するスタイリメトリック分析、広範囲にわたる範囲を示すセマンティック多様性分析、自己監督型医療概念抽出を用いた探索的下流評価、F1の改善を示す。
SynGP500は重要な国家的ギャップに対処し、研究者や教育者に対して、患者のプライバシーを本質的に保護しながら、オーストラリアの一般的な実践のための臨床NLPメソッドの開発と評価のためのリソースを提供する。
関連論文リスト
- DermINO: Hybrid Pretraining for a Versatile Dermatology Foundation Model [92.66916452260553]
DermNIOは皮膚科学の多目的基盤モデルである。
自己教師型学習パラダイムを増強する、新しいハイブリッド事前学習フレームワークが組み込まれている。
さまざまなタスクにおいて、最先端のモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-17T00:41:39Z) - DermaCon-IN: A Multi-concept Annotated Dermatological Image Dataset of Indian Skin Disorders for Clinical AI Research [3.3114401663331137]
DermaCon-INは、南インドで約3000人の患者から5450件以上の臨床画像が収集されたデータセットである。
それぞれの画像は、240以上の異なる診断がなされ、階層的、エチオロジーに基づく分類の下に構築された、ボード認証された皮膚科医によって注釈付けされる。
このデータセットは、インドにおける外来医療でよく見られる皮膚学的な状況と声調の変化を、幅広い範囲で捉えている。
論文 参考訳(メタデータ) (2025-06-06T13:59:08Z) - Systematic Literature Review on Clinical Trial Eligibility Matching [0.24554686192257422]
レビューでは、説明可能なAIと標準化されたオントロジーがクリニックの信頼を高め、採用を広げる方法が強調されている。
臨床治験採用におけるNLPの変革的ポテンシャルを十分に実現するためには、高度な意味的および時間的表現、拡張されたデータ統合、厳密な予測的評価のさらなる研究が必要である。
論文 参考訳(メタデータ) (2025-03-02T11:45:50Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - TRIALSCOPE: A Unifying Causal Framework for Scaling Real-World Evidence Generation with Biomedical Language Models [21.437563965711004]
本稿では,大規模観測データから堅牢な実世界の証拠を生成するためのフレームワークであるTRIALSCOPEを提案する。
このフレームワークは、高品質な構造化された患者データを自動的にキュレートし、データセットを拡張し、非構造化形式でのみ利用可能な主要な患者属性を組み込む。
また,TriALSCOPEは,抽出した実世界のデータから,肺癌および膵癌の臨床試験の結果を再現できることを示した。
論文 参考訳(メタデータ) (2023-11-02T15:15:47Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z) - sEHR-CE: Language modelling of structured EHR data for efficient and
generalizable patient cohort expansion [0.0]
sEHR-CEは、異種臨床データセットの統合表現型化と分析を可能にするトランスフォーマーに基づく新しいフレームワークである。
大規模研究である英国バイオバンクのプライマリ・セカンダリ・ケアデータを用いてアプローチを検証する。
論文 参考訳(メタデータ) (2022-11-30T16:00:43Z) - Towards Structuring Real-World Data at Scale: Deep Learning for
Extracting Key Oncology Information from Clinical Text with Patient-Level
Supervision [10.929271646369887]
実世界データ(RWD)の詳細な患者情報の大部分は、フリーテキストの臨床文書でのみ利用可能である。
従来のルールベースのシステムは、臨床テキストの言語的変異やあいまいさに弱い。
本稿では,患者レベルの管理を医療登録から活用することを提案する。
論文 参考訳(メタデータ) (2022-03-20T03:42:03Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。