論文の概要: A Typology of Synthetic Datasets for Dialogue Processing in Clinical Contexts
- arxiv url: http://arxiv.org/abs/2505.03025v1
- Date: Mon, 05 May 2025 20:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.127918
- Title: A Typology of Synthetic Datasets for Dialogue Processing in Clinical Contexts
- Title(参考訳): 臨床における対話処理のための合成データセットの分類
- Authors: Steven Bedrick, A. Seza Doğruöz, Sergiu Nisioi,
- Abstract要約: 本稿では、医療領域における対話関連タスクにおいて、合成データセットの作成、評価、利用方法の概要について述べる。
そこで本研究では,データ合成のタイプや度合いを分類するために,比較と評価を容易にする新しいタイプ分類法を提案する。
- 参考スコア(独自算出の注目度): 1.215281324470423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data sets are used across linguistic domains and NLP tasks, particularly in scenarios where authentic data is limited (or even non-existent). One such domain is that of clinical (healthcare) contexts, where there exist significant and long-standing challenges (e.g., privacy, anonymization, and data governance) which have led to the development of an increasing number of synthetic datasets. One increasingly important category of clinical dataset is that of clinical dialogues which are especially sensitive and difficult to collect, and as such are commonly synthesized. While such synthetic datasets have been shown to be sufficient in some situations, little theory exists to inform how they may be best used and generalized to new applications. In this paper, we provide an overview of how synthetic datasets are created, evaluated and being used for dialogue related tasks in the medical domain. Additionally, we propose a novel typology for use in classifying types and degrees of data synthesis, to facilitate comparison and evaluation.
- Abstract(参考訳): 合成データセットは言語領域やNLPタスクにまたがって使用され、特に真正データに制限がある場合(あるいは存在しない場合)に使用される。
そのような領域の1つは、臨床(医療)の文脈であり、そこでは、多くの合成データセットの開発に繋がった重要かつ長期にわたる課題(プライバシー、匿名化、データガバナンスなど)が存在する。
臨床データセットの重要なカテゴリの1つは、特に敏感で収集が難しい臨床対話であり、一般的に合成される。
このような合成データセットは、いくつかの状況では十分であることが示されているが、どのように最もよく使われ、新しい用途に一般化されるかを知らせる理論はほとんどない。
本稿では、医療領域における対話関連タスクにおいて、合成データセットの作成、評価、利用方法の概要について述べる。
さらに,データ合成のタイプや程度を分類し,比較と評価を容易にするための新しいタイプ分類法を提案する。
関連論文リスト
- SynSUM -- Synthetic Benchmark with Structured and Unstructured Medical Records [6.897301398584943]
構造化背景変数に非構造化臨床ノートをリンクする合成データセットであるSynSUMベンチマークを提案する。
このデータセットは、呼吸器疾患の領域における架空の患者との遭遇を含む1万件の人工的な患者記録で構成されている。
論文 参考訳(メタデータ) (2024-09-13T15:55:15Z) - A Novel Taxonomy for Navigating and Classifying Synthetic Data in Healthcare Applications [9.66493160220239]
本稿では,3つの主要品種の観点でランドスケープをナビゲートするために,医療における合成データの新たな分類法を提案する。
Data Proportionは、データセットと関連するprosとconsにおける合成データの比率が異なる。
データモダリティ(Data Modality)は、合成やフォーマット固有の課題に対処可能な、さまざまなデータフォーマットを指す。
データ変換は、そのユーティリティやプライバシといったデータセットの特定の側面を合成データで改善する。
論文 参考訳(メタデータ) (2024-09-01T12:04:03Z) - Generative AI for Synthetic Data Across Multiple Medical Modalities: A Systematic Review of Recent Developments and Challenges [2.1835659964186087]
本稿では,様々な医療データ型を合成するための生成モデルについて,体系的に検討する。
本研究は、幅広い医療データモダリティを包含し、様々な生成モデルについて検討する。
論文 参考訳(メタデータ) (2024-06-27T14:00:11Z) - Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data Generation with Large Language Models [46.32860360019374]
大規模言語モデル(LLM)はこの領域で有望だが、それらの直接的なデプロイはプライバシーの問題につながる可能性がある。
我々は,そのプロセスに知識を注入する,革新的で資源効率のよいアプローチであるClinGenを提案する。
7つのNLPタスクと16のデータセットを比較検討した結果,ClinGenはさまざまなタスクのパフォーマンスを継続的に向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-01T04:37:28Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic Data in Healthcare [10.555189948915492]
本稿では,データ作成のための物理・統計シミュレーションの事例と医療・医療への応用について述べる。
人工物は、プライバシ、エクイティ、安全性、継続的な、因果学習を促進することができるが、欠陥や盲点を導入し、バイアスを伝播または誇張するリスクも負う。
論文 参考訳(メタデータ) (2023-04-06T17:23:39Z) - PLACES: Prompting Language Models for Social Conversation Synthesis [103.94325597273316]
我々は、プロンプトを用いてソーシャルな会話データセットを合成するために、専門家による会話の小さなセットをコンテキスト内例として使用します。
人工会話の徹底的な評価を,人間による会話と比較して行った。
論文 参考訳(メタデータ) (2023-02-07T05:48:16Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。