論文の概要: Diagnosing our datasets: How does my language model learn clinical information?
- arxiv url: http://arxiv.org/abs/2505.15024v1
- Date: Wed, 21 May 2025 02:13:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.817344
- Title: Diagnosing our datasets: How does my language model learn clinical information?
- Title(参考訳): データセットの診断: 私の言語モデルは臨床情報をどのように学習するか?
- Authors: Furong Jia, David Sontag, Monica Agrawal,
- Abstract要約: 大規模言語モデル(LLM)は様々な自然言語処理タスクでよく機能している。
我々は,オープンソースのLLMが大規模コーパスから臨床情報をいかに学習するかを検討する。
- 参考スコア(独自算出の注目度): 7.099154613395202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have performed well across various clinical natural language processing tasks, despite not being directly trained on electronic health record (EHR) data. In this work, we examine how popular open-source LLMs learn clinical information from large mined corpora through two crucial but understudied lenses: (1) their interpretation of clinical jargon, a foundational ability for understanding real-world clinical notes, and (2) their responses to unsupported medical claims. For both use cases, we investigate the frequency of relevant clinical information in their corresponding pretraining corpora, the relationship between pretraining data composition and model outputs, and the sources underlying this data. To isolate clinical jargon understanding, we evaluate LLMs on a new dataset MedLingo. Unsurprisingly, we find that the frequency of clinical jargon mentions across major pretraining corpora correlates with model performance. However, jargon frequently appearing in clinical notes often rarely appears in pretraining corpora, revealing a mismatch between available data and real-world usage. Similarly, we find that a non-negligible portion of documents support disputed claims that can then be parroted by models. Finally, we classified and analyzed the types of online sources in which clinical jargon and unsupported medical claims appear, with implications for future dataset composition.
- Abstract(参考訳): 大規模言語モデル(LLM)は、電子健康記録(EHR)データで直接訓練されていないにもかかわらず、様々な臨床自然言語処理タスクでよく機能している。
本研究は,オープンソースのLDMが,(1)臨床ジャーゴンの解釈,実際の臨床ノートを理解する基礎的能力,(2)医学的クレームに対する応答の2つを通じて,大規模コーパスから臨床情報をいかに学習するかを検討するものである。
いずれの場合も, 関連臨床情報の頻度, 事前学習データ構成とモデル出力の関係, およびその基盤となる情報源について検討する。
臨床ジャーゴン理解を分離するために,新たなデータセットMedLingoを用いてLSMを評価した。
当然のことながら, 臨床ジャーゴンの出現頻度は, モデル性能と相関することが明らかとなった。
しかし、臨床ノートに頻繁に現れるジャーゴンは、しばしばプレトレーニングコーパスに現れ、利用可能なデータと実際の使用とのミスマッチが明らかになる。
同様に、非無視の文書の一部が、モデルでパーローズ可能な議論されたクレームをサポートすることが分かる。
最後に,臨床ジャーゴンおよびサポート対象医療クレームが出現するオンラインソースの種類を分類し,分析し,今後のデータセット構成に影響を及ぼす。
関連論文リスト
- Rephrasing Electronic Health Records for Pretraining Clinical Language Models [0.09819964822292428]
LLMを用いて既存の臨床ノートを書き換えて, 合成プレトレーニングコーパスを作成した。
異なるLSMから合成コーパスを付加したオリジナル臨床ノートの増補により,少額のトークン予算においても性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-11-28T06:12:28Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Don't Ignore Dual Logic Ability of LLMs while Privatizing: A
Data-Intensive Analysis in Medical Domain [19.46334739319516]
本研究では, LLMの二重論理能力が, 医療領域の民営化過程における影響について検討した。
以上の結果から,LLMに汎用ドメイン二重論理データを組み込むことによって,LLMの二重論理能力が向上するだけでなく,精度も向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-08T08:20:46Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Do We Still Need Clinical Language Models? [15.023633270864675]
比較的小さな専門的な臨床モデルでは、コンテキスト内学習のアプローチが大幅に優れていることを示す。
physioNet Credentialed Health Dataライセンスとデータ使用契約の下で使用されるコードとモデルをリリースします。
論文 参考訳(メタデータ) (2023-02-16T05:08:34Z) - sEHR-CE: Language modelling of structured EHR data for efficient and
generalizable patient cohort expansion [0.0]
sEHR-CEは、異種臨床データセットの統合表現型化と分析を可能にするトランスフォーマーに基づく新しいフレームワークである。
大規模研究である英国バイオバンクのプライマリ・セカンダリ・ケアデータを用いてアプローチを検証する。
論文 参考訳(メタデータ) (2022-11-30T16:00:43Z) - Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:34:39Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。