論文の概要: Comparing Two Model Designs for Clinical Note Generation; Is an LLM a Useful Evaluator of Consistency?
- arxiv url: http://arxiv.org/abs/2404.06503v1
- Date: Tue, 9 Apr 2024 17:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 13:42:03.003933
- Title: Comparing Two Model Designs for Clinical Note Generation; Is an LLM a Useful Evaluator of Consistency?
- Title(参考訳): 臨床ノート作成のための2つのモデル設計の比較 : LLMは一貫性の評価に有用か?
- Authors: Nathan Brake, Thomas Schaaf,
- Abstract要約: 本稿では、会話の音声記録に基づいて、SOAPノートの異なるセクションを生成するための2つのアプローチを分析する。
両手法が類似のROUGE値に導出し, 実測値に差がないことを示す。
- 参考スコア(独自算出の注目度): 3.019130210299794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following an interaction with a patient, physicians are responsible for the submission of clinical documentation, often organized as a SOAP note. A clinical note is not simply a summary of the conversation but requires the use of appropriate medical terminology. The relevant information can then be extracted and organized according to the structure of the SOAP note. In this paper we analyze two different approaches to generate the different sections of a SOAP note based on the audio recording of the conversation, and specifically examine them in terms of note consistency. The first approach generates the sections independently, while the second method generates them all together. In this work we make use of PEGASUS-X Transformer models and observe that both methods lead to similar ROUGE values (less than 1% difference) and have no difference in terms of the Factuality metric. We perform a human evaluation to measure aspects of consistency and demonstrate that LLMs like Llama2 can be used to perform the same tasks with roughly the same agreement as the human annotators. Between the Llama2 analysis and the human reviewers we observe a Cohen Kappa inter-rater reliability of 0.79, 1.00, and 0.32 for consistency of age, gender, and body part injury, respectively. With this we demonstrate the usefulness of leveraging an LLM to measure quality indicators that can be identified by humans but are not currently captured by automatic metrics. This allows scaling evaluation to larger data sets, and we find that clinical note consistency improves by generating each new section conditioned on the output of all previously generated sections.
- Abstract(参考訳): 患者とのやりとりの後、医師は、しばしばSOAPノートとして組織される臨床文書の提出に責任を負う。
臨床ノートは単に会話の要約ではなく、適切な医療用語の使用が必要である。
その後、関連する情報を抽出し、SOAPノートの構造に従って組織化することができる。
本稿では、会話の音声記録に基づいて、SOAPノートの異なるセクションを生成するための2つの異なるアプローチを分析し、特に音符一貫性の観点からそれらを検証する。
第1の手法はセクションを独立に生成し、第2の手法はセクションを全て生成する。
本研究では, PEGASUS-X Transformerモデルを用いて, 両手法が類似のROUGE値(1%以下)を導出し, ファクチュアリティの指標に差がないことを観察する。
Llama2 のような LLM が人間のアノテータとほぼ同じ一致で同じタスクを実行できることを示す。
Llama2分析とヒトレビュアーの間では, 年齢, 性別, 身体部分損傷の整合性について, それぞれ0.79, 1.00, 0.32のCohen Kappa相互信頼度を観察した。
これにより、LLMを利用して人間によって識別されるが、現在は自動メトリクスによってキャプチャされていない品質指標を測定することの有用性を示す。
これにより、より大きなデータセットに対するスケーリング評価が可能となり、前述した全てのセクションの出力に条件付けされた各新しいセクションを生成することにより、臨床ノートの整合性が向上することがわかった。
関連論文リスト
- Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.93909886542317]
本稿では,人間の行動と自動評価方法の相違点を,単一の集合相関スコアが明らかにする方法について述べる。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Contrastive Learning with Counterfactual Explanations for Radiology Report Generation [83.30609465252441]
放射線学レポート生成のためのtextbfCountertextbfFactual textbfExplanations-based framework (CoFE) を提案する。
反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとして、シナリオが何であるかを問うことによって役立ちます。
2つのベンチマークの実験では、反ファクト的な説明を活用することで、CoFEは意味的に一貫性があり、事実的に完全なレポートを生成することができる。
論文 参考訳(メタデータ) (2024-07-19T17:24:25Z) - An Investigation of Evaluation Metrics for Automated Medical Note
Generation [5.094623170336122]
医療談話から臨床メモの自動生成のための評価方法と指標について検討した。
自動計測値と手動判定値の相関性を検討するために,システムと参照事実を比較して,自動メモ・要約の評価を行った。
論文 参考訳(メタデータ) (2023-05-27T04:34:58Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - A Marker-based Neural Network System for Extracting Social Determinants
of Health [12.6970199179668]
健康の社会的決定因子(SDoH)は、患者の医療の質と格差を左右する。
多くのSDoHアイテムは、電子健康記録の構造化形式でコード化されていない。
我々は,臨床ノートから自動的にSDoH情報を抽出する,名前付きエンティティ認識(NER),関係分類(RC),テキスト分類手法を含む多段階パイプラインを探索する。
論文 参考訳(メタデータ) (2022-12-24T18:40:23Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - SparGE: Sparse Coding-based Patient Similarity Learning via Low-rank
Constraints and Graph Embedding [6.2383530999725565]
患者類似度評価(PSA)は、エビデンスベースでパーソナライズドメディカルな医療に重要である。
PSAの機械学習アプローチは、EHRの本質的なデータ不足に対処する必要がある。
SparGEは、共同でスパースコーディングとグラフ埋め込みによって類似度を測定する。
論文 参考訳(メタデータ) (2022-02-03T06:01:07Z) - MIMICause : Defining, identifying and predicting types of causal
relationships between biomedical concepts from clinical notes [0.0]
本研究は, ガイドラインの策定, 注釈付きコーパスの開発, 臨床ノートにおけるバイオメディカル概念間の因果関係のタイプと方向を特定するためのベースラインスコアの提供を目的とする。
2018 n2c2共有タスクデータセットからサンプリングされた、合計2714の特定されていないサンプルを注釈付けし、4つの異なる言語モデルベースのアーキテクチャをトレーニングします。
臨床用テキストにおける注釈書間の高い合意は,本ガイドラインの質を示す一方で,提案されたベースラインF1は,臨床用テキストにおける物語の理解に向けた今後の研究の方向性を示す。
論文 参考訳(メタデータ) (2021-10-14T00:15:36Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - MSED: a multi-modal sleep event detection model for clinical sleep
analysis [62.997667081978825]
ポリソムノグラムで睡眠イベントを共同検出する,単一のディープニューラルネットワークアーキテクチャを設計した。
モデルの性能は,F1,精度,リコールスコア,および指標値と臨床値との相関で定量化した。
論文 参考訳(メタデータ) (2021-01-07T13:08:44Z) - Towards an Automated SOAP Note: Classifying Utterances from Medical
Conversations [0.6875312133832078]
我々は、(i)SOAPセクションと(ii)話者の役割に従って、医療会話から発話を分類するためのギャップを橋渡しします。
本稿では,既存のディープラーニングアーキテクチャを上記の2つのタスクに適応させるシステム分析を提案する。
その結果,単語レベルと発話レベルの両方をキャプチャする階層的な文脈をモデル化することで,両者の分類作業を大幅に改善することが示唆された。
論文 参考訳(メタデータ) (2020-07-17T04:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。