論文の概要: FineRadScore: A Radiology Report Line-by-Line Evaluation Technique Generating Corrections with Severity Scores
- arxiv url: http://arxiv.org/abs/2405.20613v1
- Date: Fri, 31 May 2024 04:05:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 15:36:24.101634
- Title: FineRadScore: A Radiology Report Line-by-Line Evaluation Technique Generating Corrections with Severity Scores
- Title(参考訳): FineRadScore:重度スコアによる補正を生成する線量評価手法
- Authors: Alyssa Huang, Oishi Banerjee, Kay Wu, Eduardo Pontes Reis, Pranav Rajpurkar,
- Abstract要約: FineRadScoreは、生成された胸部X線(CXR)レポートの自動評価指標である。
FineRadScoreは、候補からゼロトゥルースレポートに進むのに必要な行ごとの修正の最小数を提供します。
我々はFinRadScoreの補正と誤差重大度スコアが放射線学者の意見と一致していることを示した。
- 参考スコア(独自算出の注目度): 2.3999412769202637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current gold standard for evaluating generated chest x-ray (CXR) reports is through radiologist annotations. However, this process can be extremely time-consuming and costly, especially when evaluating large numbers of reports. In this work, we present FineRadScore, a Large Language Model (LLM)-based automated evaluation metric for generated CXR reports. Given a candidate report and a ground-truth report, FineRadScore gives the minimum number of line-by-line corrections required to go from the candidate to the ground-truth report. Additionally, FineRadScore provides an error severity rating with each correction and generates comments explaining why the correction was needed. We demonstrate that FineRadScore's corrections and error severity scores align with radiologist opinions. We also show that, when used to judge the quality of the report as a whole, FineRadScore aligns with radiologists as well as current state-of-the-art automated CXR evaluation metrics. Finally, we analyze FineRadScore's shortcomings to provide suggestions for future improvements.
- Abstract(参考訳): 生成された胸部X線(CXR)の報告を評価するための現在の金の標準は、放射線検査によるアノテーションである。
しかし、このプロセスは、特に大量のレポートを評価する場合、非常に時間がかかり、コストがかかる可能性がある。
本稿では,Large Language Model(LLM)を用いたCXRレポートの自動評価指標であるFinRadScoreについて述べる。
FineRadScoreは、候補レポートと接地真実レポートが与えられた場合、その候補から接地真実レポートに進むのに必要な行ごとの修正を最小限に設定する。
さらに、FinRadScoreは、修正毎にエラーの重大度評価を提供し、なぜ修正が必要なのかを説明するコメントを生成する。
我々はFinRadScoreの補正と誤差重大度スコアが放射線学者の意見と一致していることを示した。
また、FinRadScoreは、レポートの質を全体として判断するために、放射線学者や現在の最先端の自動CXR評価指標と整合していることも示しています。
最後に、FinRadScoreの欠点を分析し、今後の改善を提案する。
関連論文リスト
- ReXrank: A Public Leaderboard for AI-Powered Radiology Report Generation [16.687723916901728]
我々は、AIを利用した放射線学レポート生成を評価するためのリーダーボードで課題であるReXrankを紹介する。
このフレームワークには1万の研究からなる最大のテストデータセットであるReXGradientが組み込まれています。
この標準化された評価フレームワークを提供することで、ReXrankはモデルパフォーマンスの有意義な比較を可能にします。
論文 参考訳(メタデータ) (2024-11-22T18:40:02Z) - CRScore: Grounding Automated Evaluation of Code Review Comments in Code Claims and Smells [15.66562304661042]
我々は、簡潔さ、包括性、関連性などのレビュー品質の次元を測定するCRSスコアを開発した。
我々は、CRScoreが人間の判断に最も適しているレビュー品質の、正確できめ細かいスコアを生成できることを実証した。
また、自動メトリクスの開発をサポートするために、マシン生成およびGitHubレビューコメントのための2.6kの人手によるレビュー品質スコアのコーパスもリリースしました。
論文 参考訳(メタデータ) (2024-09-29T21:53:18Z) - MRScore: Evaluating Radiology Report Generation with LLM-based Reward System [39.54237580336297]
本稿では,Large Language Models (LLMs) を利用した放射線学レポート生成のための自動評価指標 MRScore を紹介する。
この課題に対処するため,我々は放射線学者と共同で,放射線学報告評価のためのLCMをガイドするフレームワークを開発し,ヒト分析との整合性を確保した。
実験では,MSScoreが人間の判断と高い相関性を示し,従来の指標と比較して,モデル選択における優れた性能を示した。
論文 参考訳(メタデータ) (2024-04-27T04:42:45Z) - Fine-Grained Image-Text Alignment in Medical Imaging Enables Explainable Cyclic Image-Report Generation [91.63262242041695]
本稿では,胸部X線画像領域と医療報告における単語を関連付けるために,適応パッチワードマッチング(AdaMatch)モデルを提案する。
AdaMatchは、適応パッチと単語のきめ細かい関係を利用して、対応する単語で特定の画像領域の説明を提供する。
CXRレポート生成タスクの明示的な説明性を提供するため,循環型CXRレポート生成のためのAdaMatchベースの双方向大言語モデルを提案する。
論文 参考訳(メタデータ) (2023-12-13T11:47:28Z) - RaDialog: A Large Vision-Language Model for Radiology Report Generation
and Conversational Assistance [53.20640629352422]
会話型AIツールは、所定の医療画像に対して臨床的に正しい放射線学レポートを生成し、議論することができる。
RaDialogは、ラジオロジーレポート生成と対話ダイアログのための、初めて徹底的に評価され、公開された大きな視覚言語モデルである。
本手法は,報告生成における最先端の臨床的正確性を実現し,報告の修正や質問への回答などのインタラクティブなタスクにおいて,印象的な能力を示す。
論文 参考訳(メタデータ) (2023-11-30T16:28:40Z) - Rad-ReStruct: A Novel VQA Benchmark and Method for Structured Radiology
Reporting [45.76458992133422]
Rad-ReStructは、X線画像の構造化レポートという形で、微細で階層的に順序付けられたアノテーションを提供する新しいベンチマークデータセットである。
本稿では,予め質問された質問や回答の形式で事前の文脈を考慮し,構造化された放射線学レポートを収集する手法であるhi-VQAを提案する。
実験の結果, 医用VQAベンチマークVQARadでは, ドメイン固有の視覚言語事前訓練を伴わない手法で, 最先端のVQAと競合する性能が得られた。
論文 参考訳(メタデータ) (2023-07-11T19:47:05Z) - Multimodal Image-Text Matching Improves Retrieval-based Chest X-Ray
Report Generation [3.6664023341224827]
X-REM (Contrastive X-Ray Report Match) は、X-REM (X-REM) という新しい検索方式の放射線学レポート生成モジュールである。
X-REMは、胸部X線画像の類似度を測定するための画像テキストマッチングスコアと、レポート検索のための放射線診断レポートを使用する。
論文 参考訳(メタデータ) (2023-03-29T04:00:47Z) - Toward Human-Like Evaluation for Natural Language Generation with Error
Analysis [93.34894810865364]
最近の研究では、大きなエラー(例えば、誤訳されたトークン)と小さなエラーの両方を考慮すると、高品質な人間の判断が得られることが示されている。
これにより、自動エラー解析によって評価指標(人間のような評価)の最終目標にアプローチするインスピレーションがもたらされる。
BARTScoreは人為的なエラー解析戦略、すなわちBARTScore++を取り入れることでBARTScoreを強化します。
論文 参考訳(メタデータ) (2022-12-20T11:36:22Z) - Improving Radiology Report Generation Systems by Removing Hallucinated
References to Non-existent Priors [1.1110995501996481]
本稿では,放射線学報告における過去の文献参照を除去する2つの方法を提案する。
GPT-3をベースとした少数ショットによる医療報告の書き直し手法と,BioBERTをベースとしたトークン分類手法により,先行参照語を直接削除する手法である。
CXR-ReDonEと呼ばれる再学習モデルでは,臨床測定値に対する従来のレポート生成手法を上回り,平均BERTSスコア0.2351(絶対改善率2.57%)を達成した。
論文 参考訳(メタデータ) (2022-09-27T00:44:41Z) - Radiomics-Guided Global-Local Transformer for Weakly Supervised
Pathology Localization in Chest X-Rays [65.88435151891369]
Radiomics-Guided Transformer (RGT)は、テキストトグロバル画像情報と、テキストトグロバル情報とを融合する。
RGTは、画像トランスフォーマーブランチ、放射能トランスフォーマーブランチ、および画像と放射線情報を集約する融合層から構成される。
論文 参考訳(メタデータ) (2022-07-10T06:32:56Z) - CLARA: Clinical Report Auto-completion [56.206459591367405]
CLARA(CLinicit Al It Report It Auto-Completion)は、医師のアンカーワードと部分的に完成した文に基づいて、文章でレポートを生成するインタラクティブな方法である。
実験では,X線で0.393 CIDEr,0.248 BLEU-4,脳波で0.482 CIDEr,0.491 BLEU-4を得た。
論文 参考訳(メタデータ) (2020-02-26T18:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。