論文の概要: Semantic Similarity in Radiology Reports via LLMs and NER
- arxiv url: http://arxiv.org/abs/2510.03102v1
- Date: Fri, 03 Oct 2025 15:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.455131
- Title: Semantic Similarity in Radiology Reports via LLMs and NER
- Title(参考訳): LLMとNERによる放射線学報告のセマンティックな類似性
- Authors: Beth Pearson, Ahmed Adnan, Zahraa Abdallah,
- Abstract要約: 放射線医学報告の評価は放射線医の訓練において重要な部分であり、診断精度の確保に重要な役割を果たしている。
予備報告と最終報告のセマンティックな差異を識別することは、訓練ツールとして、臨床知識のギャップを明らかにするためにも不可欠である。
放射線学におけるAIは急速に発展している分野であるが、専門知識を必要とするため、大規模言語モデル(LLM)の適用は依然として困難である。
Llama-EntScore は Llama 3.1 と NER の組み合わせとチューナブルウェイトを組み合わせた意味的類似性スコア法である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radiology report evaluation is a crucial part of radiologists' training and plays a key role in ensuring diagnostic accuracy. As part of the standard reporting workflow, a junior radiologist typically prepares a preliminary report, which is then reviewed and edited by a senior radiologist to produce the final report. Identifying semantic differences between preliminary and final reports is essential for junior doctors, both as a training tool and to help uncover gaps in clinical knowledge. While AI in radiology is a rapidly growing field, the application of large language models (LLMs) remains challenging due to the need for specialised domain knowledge. In this paper, we explore the ability of LLMs to provide explainable and accurate comparisons of reports in the radiology domain. We begin by comparing the performance of several LLMs in comparing radiology reports. We then assess a more traditional approach based on Named-Entity-Recognition (NER). However, both approaches exhibit limitations in delivering accurate feedback on semantic similarity. To address this, we propose Llama-EntScore, a semantic similarity scoring method using a combination of Llama 3.1 and NER with tunable weights to emphasise or de-emphasise specific types of differences. Our approach generates a quantitative similarity score for tracking progress and also gives an interpretation of the score that aims to offer valuable guidance in reviewing and refining their reporting. We find our method achieves 67% exact-match accuracy and 93% accuracy within +/- 1 when compared to radiologist-provided ground truth scores - outperforming both LLMs and NER used independently. Code is available at: \href{https://github.com/otmive/llama_reports}{github.com/otmive/llama\_reports}
- Abstract(参考訳): 放射線医学報告の評価は放射線医の訓練において重要な部分であり、診断精度の確保に重要な役割を果たしている。
標準報告ワークフローの一部として、若い放射線科医が予備報告を準備し、その後、上級放射線科医によってレビューされ、編集され、最終報告が作成される。
予備報告と最終報告のセマンティックな差異を識別することは、訓練ツールとして、臨床知識のギャップを明らかにするためにも不可欠である。
放射線学におけるAIは急速に発展している分野であるが、専門知識を必要とするため、大規模言語モデル(LLM)の適用は依然として困難である。
本稿では, 放射線学領域における報告の, 説明可能な, 正確な比較を行うLLMの能力について検討する。
まず,放射線学報告の比較において,複数のLSMの性能の比較から始める。
次に、名前付きエンティティ認識(NER)に基づいて、より伝統的なアプローチを評価する。
しかし、どちらのアプローチも意味的類似性に対する正確なフィードバックを提供するのに限界がある。
これを解決するために,Llama-EntScoreを提案する。Llama 3.1とNERの組み合わせによる意味的類似性スコア法と,特定のタイプの差を強調したり強調したりするための調整可能な重み付けを提案する。
提案手法は,進捗追跡のための定量的類似度スコアを生成するとともに,レポートのレビューと精査に有用なガイダンスを提供することを目的としたスコアの解釈を提供する。
提案手法は, 放射線技師による地上真実スコアと比較すると, 67%の精度, 93%の精度を+/-1で達成し, LLMとNERをそれぞれ独立に比較した。
コードは以下の通り。 \href{https://github.com/otmive/llama_reports}{github.com/otmive/llama\_reports}
関連論文リスト
- Ontology-Based Concept Distillation for Radiology Report Retrieval and Labeling [10.504309161945065]
既存のほとんどの手法は、CLIPやCXR-BERTのようなモデルからの高次元テキスト埋め込みを比較することに依存している。
統一医療言語システム(Unified Medical Language System)における臨床基礎概念に基づく放射線学報告テキストの比較のための,新しいオントロジーによる代替案を提案する。
本稿では,RadGraph-XLとSapBERTをベースとした拡張パイプラインを用いて,フリーテキストレポートから標準化された医療機関を抽出する。
論文 参考訳(メタデータ) (2025-08-27T14:20:50Z) - GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。
GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文 参考訳(メタデータ) (2025-03-07T11:42:22Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - The current status of large language models in summarizing radiology report impressions [13.402769727597812]
大きな言語モデル(LLMs)が放射線学レポートの印象を要約する効果は、まだ不明である。
北京大学医学部附属病院からCT,PET-CT,超音波の3種類の放射線学報告を収集した。
本報告では,ゼロショット,ワンショット,3ショットのプロンプトを完全な実例で構築し,インプレッションを生成する。
論文 参考訳(メタデータ) (2024-06-04T09:23:30Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Radiology-Llama2: Best-in-Class Large Language Model for Radiology [71.27700230067168]
本稿では,ラジオロジーに特化した大規模言語モデルであるRadiology-Llama2を紹介する。
MIMIC-CXRとOpenIデータセットのROUGEメトリクスを用いた定量的評価は、Radiology-Llama2が最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-08-29T17:44:28Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Knowledge Graph Construction and Its Application in Automatic Radiology
Report Generation from Radiologist's Dictation [22.894248859405767]
本稿では,情報抽出(IE)やドメイン固有知識グラフ(KG)といったNLP技術を用いて,放射線技師の指示から放射線学レポートを自動的に生成する手法について述べる。
本研究では,ルールベース,パターンベース,辞書ベースの手法と語彙意味的特徴を組み合わせた情報抽出パイプラインを構築し,エンティティと関係を抽出する。
意味的類似度指標を用いて評価した病理的記述を生成し,金の標準的な病理学的記述と97%の類似性を示した。
論文 参考訳(メタデータ) (2022-06-13T16:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。