論文の概要: From Fuzzy Speech to Medical Insight: Benchmarking LLMs on Noisy Patient Narratives
- arxiv url: http://arxiv.org/abs/2509.11803v1
- Date: Mon, 15 Sep 2025 11:34:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.253732
- Title: From Fuzzy Speech to Medical Insight: Benchmarking LLMs on Noisy Patient Narratives
- Title(参考訳): ファジィスピーチから医療インテリジェンスへ:騒々しい患者のナラティブに関するLCMのベンチマーク
- Authors: Eden Mama, Liel Sheri, Yehudit Aperstein, Alexander Apartsin,
- Abstract要約: 本稿では, 言語ノイズ, ファジィ言語, 在人用語のレベルの違いを特徴とする, 患者自己記述のシミュレートを目的とした新しいデータセットを提案する。
本データセットは, 多様な実世界の報告スタイルを反映する, コミュニケーションの明瞭度の範囲にまたがる, 地中真実診断を付加した, 臨床的に一貫したシナリオから構成される。
本研究では,NDB(Nuisy Diagnostic Benchmark)を作成した。NDB(Nuisy Diagnostic Benchmark)は,ストレステスト用に設計され,現実的な言語条件下での大規模言語モデル(LLM)の診断能力を比較する。
- 参考スコア(独自算出の注目度): 40.12543056558646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of large language models (LLMs) in healthcare raises critical questions about their ability to interpret patient-generated narratives, which are often informal, ambiguous, and noisy. Existing benchmarks typically rely on clean, structured clinical text, offering limited insight into model performance under realistic conditions. In this work, we present a novel synthetic dataset designed to simulate patient self-descriptions characterized by varying levels of linguistic noise, fuzzy language, and layperson terminology. Our dataset comprises clinically consistent scenarios annotated with ground-truth diagnoses, spanning a spectrum of communication clarity to reflect diverse real-world reporting styles. Using this benchmark, we fine-tune and evaluate several state-of-the-art models (LLMs), including BERT-based and encoder-decoder T5 models. To support reproducibility and future research, we release the Noisy Diagnostic Benchmark (NDB), a structured dataset of noisy, synthetic patient descriptions designed to stress-test and compare the diagnostic capabilities of large language models (LLMs) under realistic linguistic conditions. We made the benchmark available for the community: https://github.com/lielsheri/PatientSignal
- Abstract(参考訳): 医療における大規模言語モデル(LLM)の普及は、しばしば非公式で曖昧で騒々しい、患者生成の物語を解釈する能力について批判的な疑問を提起する。
既存のベンチマークは通常、クリーンで構造化された臨床テキストに依存し、現実的な条件下でのモデルパフォーマンスに関する限られた洞察を提供する。
本研究では, 言語ノイズ, ファジィ言語, 在人用語のレベルの違いを特徴とする患者自己記述をシミュレートした, 新規な合成データセットを提案する。
本データセットは, 多様な実世界の報告スタイルを反映する, コミュニケーションの明瞭度の範囲にまたがる, 地中真実診断を付加した, 臨床的に一貫したシナリオから構成される。
このベンチマークを用いて、BERTベースやエンコーダデコーダT5モデルなど、いくつかの最先端モデル(LLM)を微調整し、評価する。
再現性と今後の研究を支援するため,現実的な言語条件下での大規模言語モデル(LLM)の診断能力の比較とストレステストを目的とした,ノイズの多い患者記述の構造化データセットであるNoisy Diagnostic Benchmark (NDB) をリリースする。
ベンチマークをコミュニティに公開しました。 https://github.com/lielsheri/PatientSignal。
関連論文リスト
- Clinical NLP with Attention-Based Deep Learning for Multi-Disease Prediction [44.0876796031468]
本稿では,電子健康記録テキストの非構造的性質と高次元意味論的複雑さがもたらす課題について論じる。
情報抽出と多ラベル病予測のための統合モデリングを実現するために,注意機構に基づく深層学習手法を提案する。
論文 参考訳(メタデータ) (2025-07-02T07:45:22Z) - Analysis and Evaluation of Synthetic Data Generation in Speech Dysfluency Detection [5.95376852691752]
発声障害の検出は臨床診断と言語評価に不可欠である。
このデータセットは、単語レベルと音素レベルの両方にまたがる11のディスフルエンシカテゴリをキャプチャする。
このリソースを基盤として、エンド・ツー・エンドのディフルエンシ検出フレームワークを改善します。
論文 参考訳(メタデータ) (2025-05-28T06:52:10Z) - ProMedTS: A Self-Supervised, Prompt-Guided Multimodal Approach for Integrating Medical Text and Time Series [27.70300880284899]
大規模言語モデル (LLM) は、視覚の細かいタスクにおいて顕著な性能を示してきたが、医療分野におけるそれらの応用はいまだに探索されていない。
ProMedTSは、データ型を統一するために、プロンプト誘導学習を利用する、新しい自己教師型マルチモーダルフレームワークである。
実世界のデータセットを用いた診断タスクにおけるProMedTSの評価を行い,本手法が常に最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-19T07:56:48Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。