論文の概要: Improving Clinical NLP Performance through Language Model-Generated Synthetic Clinical Data
- arxiv url: http://arxiv.org/abs/2403.19511v1
- Date: Thu, 28 Mar 2024 15:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 15:44:37.893561
- Title: Improving Clinical NLP Performance through Language Model-Generated Synthetic Clinical Data
- Title(参考訳): 言語モデル生成臨床データによる臨床NLPの性能向上
- Authors: Shan Chen, Jack Gallifant, Marco Guevara, Yanjun Gao, Majid Afshar, Timothy Miller, Dmitriy Dligach, Danielle S. Bitterman,
- Abstract要約: 本研究では,先進言語モデルから生成された合成データを利用して,臨床自然言語処理性能の向上を図る。
評価結果は、そのような高い領域で実現可能な応用を示す。
- 参考スコア(独自算出の注目度): 6.4671061207671325
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative models have been showing potential for producing data in mass. This study explores the enhancement of clinical natural language processing performance by utilizing synthetic data generated from advanced language models. Promising results show feasible applications in such a high-stakes domain.
- Abstract(参考訳): 生成モデルは大量にデータを生成する可能性を示している。
本研究では,先進言語モデルから生成された合成データを利用して,臨床自然言語処理性能の向上を図る。
評価結果は、そのような高い領域で実現可能な応用を示す。
関連論文リスト
- Retrieval-Reasoning Large Language Model-based Synthetic Clinical Trial Generation [16.067841125848688]
本稿では, 大規模言語モデルを利用した新規な検索・推論フレームワークを提案する。
urlClinicalTrials.govデータベースによる実際の臨床試験で実施された実験は、我々の合成データが実際のデータセットを効果的に増大させることができることを示した。
本研究は, 臨床研究を加速し, 患者プライバシの倫理基準を高くする上で, 総合臨床試験生成のためのLCMが期待できることを示唆する。
論文 参考訳(メタデータ) (2024-10-16T11:46:32Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - A generative framework to bridge data-driven models and scientific theories in language neuroscience [84.76462599023802]
脳内の言語選択性の簡潔な説明を生成するためのフレームワークである生成的説明媒介バリデーションを提案する。
本研究では,説明精度が基礎となる統計モデルの予測力と安定性と密接に関連していることを示す。
論文 参考訳(メタデータ) (2024-10-01T15:57:48Z) - EEG-Language Modeling for Pathology Detection [0.0]
本研究は臨床報告に基づく脳波モデルの先駆者であり,脳波は15,000である。
以上の結果から,よりリッチな表現をさまざまなレポートセグメントに公開することで,モデルが学習できることが示唆された。
EEG言語モデルの表現は、脳波のみのモデルと比較して、病理診断を大幅に改善することができる。
論文 参考訳(メタデータ) (2024-09-02T10:03:03Z) - Data Generation Using Large Language Models for Text Classification: An Empirical Case Study [15.447491854250227]
我々は、合成データに基づいて訓練された自然言語理解(NLU)モデルを用いて、異なる世代からの合成データの品質を評価する。
この研究は、これらの要因の影響を実証分析し、データ生成の実践を改善するためのレコメンデーションを提供する。
論文 参考訳(メタデータ) (2024-06-27T21:41:43Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Synthetic Data Generation with Large Language Models for Text
Classification: Potential and Limitations [21.583825474908334]
本研究では,合成データに基づいて学習したモデルの性能が,分類の主観性によってどう変化するかを検討する。
その結果,主観性は,タスクレベルとインスタンスレベルの両方において,合成データに基づいて訓練されたモデルの性能と負の相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-10-11T19:51:13Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。