論文の概要: Weakly Supervised Fine-grained Span-Level Framework for Chinese Radiology Report Quality Assurance
- arxiv url: http://arxiv.org/abs/2508.08876v2
- Date: Mon, 01 Sep 2025 08:24:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.608996
- Title: Weakly Supervised Fine-grained Span-Level Framework for Chinese Radiology Report Quality Assurance
- Title(参考訳): 中国放射線学報告品質保証のための微粒スパンレベルフレームワーク
- Authors: Kaiyu Wang, Lin Mu, Zhiyao Yang, Ximing Li, Xiaotang Zhou Wanfu Gao, Huimao Zhang,
- Abstract要約: 本稿では,QAスコアを自動的にマークするSpan-level Quality Assurance EvaluaTOR(Sqator)を提案する。
Sqatorは、中高生レポートの改訂スパンの重要性を測定することで、QAスコアを測定する。
12,013例の放射線診断報告を用いてSqatorの評価を行った。
- 参考スコア(独自算出の注目度): 10.906704133936046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quality Assurance (QA) for radiology reports refers to judging whether the junior reports (written by junior doctors) are qualified. The QA scores of one junior report are given by the senior doctor(s) after reviewing the image and junior report. This process requires intensive labor costs for senior doctors. Additionally, the QA scores may be inaccurate for reasons like diagnosis bias, the ability of senior doctors, and so on. To address this issue, we propose a Span-level Quality Assurance EvaluaTOR (Sqator) to mark QA scores automatically. Unlike the common document-level semantic comparison method, we try to analyze the semantic difference by exploring more fine-grained text spans. Specifically, Sqator measures QA scores by measuring the importance of revised spans between junior and senior reports, and outputs the final QA scores by merging all revised span scores. We evaluate Sqator using a collection of 12,013 radiology reports. Experimental results show that Sqator can achieve competitive QA scores. Moreover, the importance scores of revised spans can be also consistent with the judgments of senior doctors.
- Abstract(参考訳): 放射線学報告の品質保証(QA: Quality Assurance)とは、若年者(下級医)に資格があるかどうかを判断することである。
ジュニアレポートのQAスコアは、画像とジュニアレポートをレビューした後、シニアドクター(s)によって与えられる。
このプロセスでは、高齢者の医療費が大幅に削減される。
さらに、QAスコアは、診断バイアス、シニア医師の能力など、不正確である可能性がある。
そこで本研究では,QAスコアを自動的にマークするSpanレベル品質保証評価器(Sqator)を提案する。
一般的な文書レベルの意味比較法とは異なり、よりきめ細かなテキストスパンを探索することで意味の違いを分析する。
具体的には、下級と上級の改訂スパンの重要性を測定してQAスコアを測定し、改訂スパンスコアをマージして最終QAスコアを出力する。
12,013例の放射線診断報告を用いてSqatorの評価を行った。
実験の結果,Sqatorは競争力のあるQAスコアを達成できることがわかった。
また, 改訂されたスパンのスコアは, 高齢者の判断と一致している。
関連論文リスト
- AURA Score: A Metric For Holistic Audio Question Answering Evaluation [57.042210272137396]
AQAメトリクスのシステマティックなベンチマークを可能にするために、AQEvalを導入します。
これはこの種の最初のベンチマークであり、その正確さと妥当性のために、複数の人間が注釈付けした10kモデル応答で構成されている。
第2に、既存のAQAメトリクスをAQEval上で総合的に分析し、人間の判断と弱い相関を明らかにする。
第3に、オープンなモデル応答をよりよく評価するための新しい指標であるAURAスコアを提案する。
論文 参考訳(メタデータ) (2025-10-06T15:41:34Z) - AMQA: An Adversarial Dataset for Benchmarking Bias of LLMs in Medicine and Healthcare [26.165474297359843]
大規模言語モデル(LLM)は、医学的診断問題において専門家レベルの精度に達している。
しかし、彼らの過ちと背後にある偏見は、命にかかわるリスクを引き起こす。
本稿では,AMQA(Adversarial Medical Question-Answering dataset)を提案する。
論文 参考訳(メタデータ) (2025-05-26T06:24:20Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding [20.83722922095852]
MedXpertQAには17の専門分野と11の身体システムにまたがる4,460の質問が含まれている。
MMは、多様な画像と豊富な臨床情報を備えた専門家レベルの試験問題を導入する。
ベンチマークで18の先行モデルを評価した。
論文 参考訳(メタデータ) (2025-01-30T14:07:56Z) - QAPyramid: Fine-grained Evaluation of Content Selection for Text Summarization [86.94444211134486]
本稿ではQAPyramidを提案する。QA-SRLフレームワークにより,各参照要約をよりきめ細かな問合せ対に分解する。
この結果から,QAPyramidはより体系的かつきめ細かなコンテンツ選択評価を提供すると同時に,専門家のアノテーションを必要とせず,アノテータ間の高合意を維持していることがわかった。
論文 参考訳(メタデータ) (2024-12-10T01:29:51Z) - Diagnosis extraction from unstructured Dutch echocardiogram reports using span- and document-level characteristic classification [0.0]
本研究は,非構造オランダ心エコー図による自動スパンレベル診断と文書レベル診断の有用性について検討した。
本研究では,重み付きおよびマクロF1スコア,精度,性能評価のためのリコールを用いて,スパンレベルと文書レベルの両方で自動ラベリング手法を開発し,試験した。
SpanCategorizerとMedRoBERTa$.$nlモデルは、他のすべてのスパンと文書分類器よりも優れていた。
論文 参考訳(メタデータ) (2024-08-13T14:33:32Z) - Comparative Experimentation of Accuracy Metrics in Automated Medical
Reporting: The Case of Otitis Consultations [0.5242869847419834]
生成人工知能(Generative Artificial Intelligence)は、医療相談書の書き起こしに基づいて、自動的に医療報告を生成するために用いられる。
生成したレポートの正確さは、その正確さと有用性を保証するために確立する必要がある。
AIが生成したレポートの正確性を測定する指標はいくつかあるが、これらの指標を医療報告に適用するための作業はほとんど行われていない。
論文 参考訳(メタデータ) (2023-11-22T09:51:43Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Automated Evaluation of Standardized Dementia Screening Tests [0.18472148461613155]
半標準化された歴史と2つの標準化された神経心理学的テストからなる研究について報告する。
テストには、名前オブジェクトや単語リストの学習といった基本的なタスクだけでなく、MMSEのような広く使われているツールも含まれている。
単語代替語を用いることで、認識誤りを軽減し、その後、専門家のスコアとの相関性を改善することが示される。
論文 参考訳(メタデータ) (2022-06-13T14:41:27Z) - Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex
Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。
これらの質問は、現在のQAシステムにとって最も難しいものです。
知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。
市販の事前訓練モデルを完全に活用しようと努力しています。
論文 参考訳(メタデータ) (2020-08-06T02:47:46Z) - Ranking Significant Discrepancies in Clinical Reports [35.98516275988634]
医療ミスは公衆衛生上の問題であり、世界中で死因となっている。
多くの医療センターや病院では、医療従事者が予備的な医療報告書を書き、報告は後にレビューされ、改訂され、より経験豊富な医師によって確定する報告システムを使用している。
毎日大量のレポートが作成されているため、最終的なレポートをすべて手作業で徹底的にレビューして、そのようなエラーを見つけてそこから学ぶことは、しばしば困難である。
予備版と最終版の間にテキストとオントロジが重なる新しいランキング手法を提案する。
これにより、医療実践者は、その解釈がもっとも多い報告から容易に識別し、学習することができる。
論文 参考訳(メタデータ) (2020-01-18T14:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。