論文の概要: GREEN: Generative Radiology Report Evaluation and Error Notation
- arxiv url: http://arxiv.org/abs/2405.03595v1
- Date: Mon, 6 May 2024 16:04:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 13:17:09.967335
- Title: GREEN: Generative Radiology Report Evaluation and Error Notation
- Title(参考訳): GREEN: 生成放射線学レポートの評価と誤記
- Authors: Sophie Ostmeier, Justin Xu, Zhihong Chen, Maya Varma, Louis Blankemeier, Christian Bluethgen, Arne Edward Michalson, Michael Moseley, Curtis Langlotz, Akshay S Chaudhari, Jean-Benoit Delbrouck,
- Abstract要約: グリーンは、言語モデルの自然言語理解を利用して、候補レポートにおける臨床的に重要なエラーを特定し、説明する放射線学レポート生成指標である。
1)専門家の好みに合わせたスコア,2)臨床的に重要なエラーの解釈可能な説明,3)エンドユーザによるフィードバックループの実現,3)商用ユーザのパフォーマンスに到達する軽量なオープンソース手法。
- 参考スコア(独自算出の注目度): 14.31646900556454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating radiology reports is a challenging problem as factual correctness is extremely important due to the need for accurate medical communication about medical images. Existing automatic evaluation metrics either suffer from failing to consider factual correctness (e.g., BLEU and ROUGE) or are limited in their interpretability (e.g., F1CheXpert and F1RadGraph). In this paper, we introduce GREEN (Generative Radiology Report Evaluation and Error Notation), a radiology report generation metric that leverages the natural language understanding of language models to identify and explain clinically significant errors in candidate reports, both quantitatively and qualitatively. Compared to current metrics, GREEN offers: 1) a score aligned with expert preferences, 2) human interpretable explanations of clinically significant errors, enabling feedback loops with end-users, and 3) a lightweight open-source method that reaches the performance of commercial counterparts. We validate our GREEN metric by comparing it to GPT-4, as well as to error counts of 6 experts and preferences of 2 experts. Our method demonstrates not only higher correlation with expert error counts, but simultaneously higher alignment with expert preferences when compared to previous approaches."
- Abstract(参考訳): 医用画像に関する正確な医療コミュニケーションが必要であるため、事実の正しさが極めて重要であるため、放射線学報告の評価は難しい問題である。
既存の自動評価指標は、事実の正しさ(例えばBLEUやROUGE)を考慮できないか、解釈可能性(例えばF1CheXpertやF1RadGraph)に制限されている。
本稿では,GREEN(Generative Radiology Report Evaluation and Error Notation)について紹介する。GREENは,言語モデルの自然言語理解を利用して,候補レポートにおける臨床的に有意な誤りを定量的かつ定性的に識別し,説明する手法である。
現在のメトリクスと比較すると、GREENは次のように提供します。
1)専門家の選好に沿ったスコア
2【臨床的に重要な誤りの解釈可能な説明】 エンドユーザーとのフィードバックループを可能にすること、及び
3)商用製品の性能に到達する軽量なオープンソース手法。
GREENをGPT-4と比較し,6人の専門家の誤り数と2人の専門家の好みを検証した。
提案手法は, 専門家の誤差数と高い相関性を示すだけでなく, 従来の手法と比較して, 専門家の好みと高い相関性を示す。
です。
関連論文リスト
- GPT-4V Cannot Generate Radiology Reports Yet [25.331936045860516]
GPT-4Vの強いマルチモーダル能力は、放射線学レポート作成を自動化するためにそれを使うことに関心を喚起する。
我々は, GPT-4V を用いた報告を異なるプロンプト戦略により直接生成し, 語彙指標と臨床効果指標の両方で異常を生じさせることを試みた。
論文 参考訳(メタデータ) (2024-07-16T21:03:14Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - Reshaping Free-Text Radiology Notes Into Structured Reports With Generative Transformers [0.29530625605275984]
構造化報告(SR)は様々な医療社会で推奨されている。
自由テキストレポートから情報を抽出するパイプラインを提案する。
我々の研究は自然言語処理(NLP)とトランスフォーマーベースのモデルを活用することを目的としている。
論文 参考訳(メタデータ) (2024-03-27T18:38:39Z) - Leveraging Professional Radiologists' Expertise to Enhance LLMs'
Evaluation for Radiology Reports [22.599250713630333]
提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。
我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。
実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
論文 参考訳(メタデータ) (2024-01-29T21:24:43Z) - Comparative Experimentation of Accuracy Metrics in Automated Medical
Reporting: The Case of Otitis Consultations [0.5242869847419834]
生成人工知能(Generative Artificial Intelligence)は、医療相談書の書き起こしに基づいて、自動的に医療報告を生成するために用いられる。
生成したレポートの正確さは、その正確さと有用性を保証するために確立する必要がある。
AIが生成したレポートの正確性を測定する指標はいくつかあるが、これらの指標を医療報告に適用するための作業はほとんど行われていない。
論文 参考訳(メタデータ) (2023-11-22T09:51:43Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Radiology-Llama2: Best-in-Class Large Language Model for Radiology [71.27700230067168]
本稿では,ラジオロジーに特化した大規模言語モデルであるRadiology-Llama2を紹介する。
MIMIC-CXRとOpenIデータセットのROUGEメトリクスを用いた定量的評価は、Radiology-Llama2が最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-08-29T17:44:28Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - Improving the Factual Correctness of Radiology Report Generation with
Semantic Rewards [9.175022232984709]
本稿では,RadGraph 報奨という新たな手法を提案する。
本システムは,報告の事実的正しさと完全性を評価する指標において,14.2%と25.3%のスコアを著しく改善する。
論文 参考訳(メタデータ) (2022-10-21T18:27:45Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - CLARA: Clinical Report Auto-completion [56.206459591367405]
CLARA(CLinicit Al It Report It Auto-Completion)は、医師のアンカーワードと部分的に完成した文に基づいて、文章でレポートを生成するインタラクティブな方法である。
実験では,X線で0.393 CIDEr,0.248 BLEU-4,脳波で0.482 CIDEr,0.491 BLEU-4を得た。
論文 参考訳(メタデータ) (2020-02-26T18:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。