Fugu-MT 論文翻訳(概要): Weakly Supervised Fine-grained Span-Level Framework for Chinese Radiology Report Quality Assurance

論文の概要: Weakly Supervised Fine-grained Span-Level Framework for Chinese Radiology Report Quality Assurance

arxiv url: http://arxiv.org/abs/2508.08876v1
Date: Tue, 12 Aug 2025 12:03:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-13 21:07:34.415413
Title: Weakly Supervised Fine-grained Span-Level Framework for Chinese Radiology Report Quality Assurance
Title（参考訳）: 中国放射線学報告品質保証のための微粒スパンレベルフレームワーク
Authors: Kaiyu Wang, Lin Mu, Zhiyao Yang, Ximing Li, Xiaotang Zhou Wanfu Gao, Huimao Zhang,
Abstract要約: 放射線学報告の品質保証(QA: Quality Assurance)とは、若年者(下級医)に資格があるかどうかを判断することである。本稿では,QAスコアを自動的にマークするSpan-level Quality Assurance EvaluaTOR(Sqator)を提案する。
参考スコア（独自算出の注目度）: 14.784158889077316
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Quality Assurance (QA) for radiology reports refers to judging whether the junior reports (written by junior doctors) are qualified. The QA scores of one junior report are given by the senior doctor(s) after reviewing the image and junior report. This process requires intensive labor costs for senior doctors. Additionally, the QA scores may be inaccurate for reasons like diagnosis bias, the ability of senior doctors, and so on. To address this issue, we propose a Span-level Quality Assurance EvaluaTOR (Sqator) to mark QA scores automatically. Unlike the common document-level semantic comparison method, we try to analyze the semantic difference by exploring more fine-grained text spans. Unlike the common document-level semantic comparison method, we try to analyze the semantic difference by exploring more fine-grained text spans. Specifically, Sqator measures QA scores by measuring the importance of revised spans between junior and senior reports, and outputs the final QA scores by merging all revised span scores. We evaluate Sqator using a collection of 12,013 radiology reports. Experimental results show that Sqator can achieve competitive QA scores. Moreover, the importance scores of revised spans can be also consistent with the judgments of senior doctors.
Abstract（参考訳）: 放射線学報告の品質保証(QA: Quality Assurance)とは、若年者(下級医)に資格があるかどうかを判断することである。ジュニアレポートのQAスコアは、画像とジュニアレポートをレビューした後、シニアドクター(s)によって与えられる。このプロセスでは、高齢者の医療費が大幅に削減される。さらに、QAスコアは、診断バイアス、シニア医師の能力など、不正確である可能性がある。そこで本研究では,QAスコアを自動的にマークするSpanレベル品質保証評価器(Sqator)を提案する。一般的な文書レベルの意味比較法とは異なり、よりきめ細かなテキストスパンを探索することで意味の違いを分析する。一般的な文書レベルの意味比較法とは異なり、よりきめ細かなテキストスパンを探索することで意味の違いを分析する。具体的には、下級と上級の改訂スパンの重要性を測定してQAスコアを測定し、改訂スパンスコアをマージして最終QAスコアを出力する。 12,013例の放射線診断報告を用いてSqatorの評価を行った。実験の結果,Sqatorは競争力のあるQAスコアを達成できることがわかった。また, 改訂されたスパンのスコアは, 高齢者の判断と一致している。

関連論文リスト

Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文参考訳（メタデータ） (2025-04-10T09:24:54Z)
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding [20.83722922095852]
MedXpertQAには17の専門分野と11の身体システムにまたがる4,460の質問が含まれている。 MMは、多様な画像と豊富な臨床情報を備えた専門家レベルの試験問題を導入する。ベンチマークで18の先行モデルを評価した。
論文参考訳（メタデータ） (2025-01-30T14:07:56Z)
QAPyramid: Fine-grained Evaluation of Content Selection for Text Summarization [86.94444211134486]
本稿ではQAPyramidを提案する。QA-SRLフレームワークにより,各参照要約をよりきめ細かな問合せ対に分解する。この結果から,QAPyramidはより体系的かつきめ細かなコンテンツ選択評価を提供すると同時に,専門家のアノテーションを必要とせず,アノテータ間の高合意を維持していることがわかった。
論文参考訳（メタデータ） (2024-12-10T01:29:51Z)
Diagnosis extraction from unstructured Dutch echocardiogram reports using span- and document-level characteristic classification [0.0]
本研究は,非構造オランダ心エコー図による自動スパンレベル診断と文書レベル診断の有用性について検討した。本研究では,重み付きおよびマクロF1スコア,精度,性能評価のためのリコールを用いて,スパンレベルと文書レベルの両方で自動ラベリング手法を開発し,試験した。 SpanCategorizerとMedRoBERTa$.$nlモデルは、他のすべてのスパンと文書分類器よりも優れていた。
論文参考訳（メタデータ） (2024-08-13T14:33:32Z)
Comparative Experimentation of Accuracy Metrics in Automated Medical Reporting: The Case of Otitis Consultations [0.5242869847419834]
生成人工知能(Generative Artificial Intelligence)は、医療相談書の書き起こしに基づいて、自動的に医療報告を生成するために用いられる。生成したレポートの正確さは、その正確さと有用性を保証するために確立する必要がある。 AIが生成したレポートの正確性を測定する指標はいくつかあるが、これらの指標を医療報告に適用するための作業はほとんど行われていない。
論文参考訳（メタデータ） (2023-11-22T09:51:43Z)
SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文参考訳（メタデータ） (2023-09-21T16:51:30Z)
Rethink about the Word-level Quality Estimation for Machine Translation from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文参考訳（メタデータ） (2022-09-13T02:37:12Z)
Automated Evaluation of Standardized Dementia Screening Tests [0.18472148461613155]
半標準化された歴史と2つの標準化された神経心理学的テストからなる研究について報告する。テストには、名前オブジェクトや単語リストの学習といった基本的なタスクだけでなく、MMSEのような広く使われているツールも含まれている。単語代替語を用いることで、認識誤りを軽減し、その後、専門家のスコアとの相関性を改善することが示される。
論文参考訳（メタデータ） (2022-06-13T14:41:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。