論文の概要: Blinded Radiologist and LLM-Based Evaluation of LLM-Generated Japanese Translations of Chest CT Reports: Comparative Study
- arxiv url: http://arxiv.org/abs/2604.02207v1
- Date: Thu, 02 Apr 2026 15:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.90683
- Title: Blinded Radiologist and LLM-Based Evaluation of LLM-Generated Japanese Translations of Chest CT Reports: Comparative Study
- Title(参考訳): LLMによる胸部CTの日本語翻訳のブラインドドラジオロジーとLCMによる評価 : 比較検討
- Authors: Yosuke Yamagishi, Atsushi Takamatsu, Yasunori Hamaguchi, Tomohiro Kikuchi, Shouhei Hanaoka, Takeharu Yoshikawa, Osamu Abe,
- Abstract要約: 今回,CT-RATE-JPNによる150例の胸部CT所見について検討した。
英語のレポートでは、DeepSeek-V3.2によるLLMによる日本語翻訳と比較された。
専門の放射線科医と放射線科医は,専門用語の正確性,可読性,総合的品質,放射線学スタイルの信頼性の4つの基準において,個別に視覚的一対評価を行った。
- 参考スコア(独自算出の注目度): 0.0177677587528917
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Background: Accurate translation of radiology reports is important for multilingual research, clinical communication, and radiology education, but the validity of LLM-based evaluation remains unclear. Objective: To evaluate the educational suitability of LLM-generated Japanese translations of chest CT reports and compare radiologist assessments with LLM-as-a-judge evaluations. Methods: We analyzed 150 chest CT reports from the CT-RATE-JPN validation set. For each English report, a human-edited Japanese translation was compared with an LLM-generated translation by DeepSeek-V3.2. A board-certified radiologist and a radiology resident independently performed blinded pairwise evaluations across 4 criteria: terminology accuracy, readability, overall quality, and radiologist-style authenticity. In parallel, 3 LLM judges (DeepSeek-V3.2, Mistral Large 3, and GPT-5) evaluated the same pairs. Agreement was assessed using QWK and percentage agreement. Results: Agreement between radiologists and LLM judges was near zero (QWK=-0.04 to 0.15). Agreement between the 2 radiologists was also poor (QWK=0.01 to 0.06). Radiologist 1 rated terminology as equivalent in 59% of cases and favored the LLM translation for readability (51%) and overall quality (51%). Radiologist 2 rated readability as equivalent in 75% of cases and favored the human-edited translation for overall quality (40% vs 21%). All 3 LLM judges strongly favored the LLM translation across all criteria (70%-99%) and rated it as more radiologist-like in >93% of cases. Conclusions: LLM-generated translations were often judged natural and fluent, but the 2 radiologists differed substantially. LLM-as-a-judge showed strong preference for LLM output and negligible agreement with radiologists. For educational use of translated radiology reports, automated LLM-based evaluation alone is insufficient; expert radiologist review remains important.
- Abstract(参考訳): 背景: 多言語研究, 臨床コミュニケーション, 放射線学教育において, 正確な放射線学報告の翻訳が重要であるが, LLMによる評価の有効性は明らかでない。
目的: 胸部CT画像の日本語翻訳の教育的適合性を評価し, 放射線学的評価とLCM-as-a-judge評価を比較した。
方法: CT-RATE-JPN 検査セットから150例の胸部CT所見を解析した。
英語のレポートでは、DeepSeek-V3.2によるLLMによる日本語翻訳と比較された。
専門の放射線科医と放射線科医は,専門用語の正確性,可読性,総合的品質,放射線学スタイルの信頼性の4つの基準において,個別に視覚的一対評価を行った。
並行して、3人のLLM審査員(DeepSeek-V3.2、Mistral Large 3、GPT-5)が同じペアを評価した。
合意はQWKとパーセンテージ契約を用いて評価された。
結果: 放射線技師とLLM判事の合意は, ほぼゼロ(QWK=-0.04~0.15)であった。
2人の放射線学者の合意も不十分であった(QWK=0.01から0.06)。
放射線技師1は59%の症例で用語を同等と評価し,可読性(51%)と全体的な品質(51%)のLLM翻訳を好んだ。
放射線学者2人は、可読性は75%の症例で同等と評価し、全体的な品質(40%対21%)で人文翻訳を好んだ。
LLMの3人の審査員は、全ての基準(70%-99%)でLSM翻訳を強く好んでおり、93%の症例では放射線科に類似していると評価した。
結論: LLMが生成した翻訳は自然で流動的であると判断されることが多いが、2人の放射線学者は著しく異なる。
LLM-as-a-judge は LLM の出力を強く好ましく, 放射線学者との合意が得られなかった。
翻訳放射線学レポートの教育的利用には,LSMによる自動評価だけでは不十分である。
関連論文リスト
- Semantic Similarity in Radiology Reports via LLMs and NER [1.2489632787815885]
放射線医学報告の評価は放射線医の訓練において重要な部分であり、診断精度の確保に重要な役割を果たしている。
予備報告と最終報告のセマンティックな差異を識別することは、訓練ツールとして、臨床知識のギャップを明らかにするためにも不可欠である。
放射線学におけるAIは急速に発展している分野であるが、専門知識を必要とするため、大規模言語モデル(LLM)の適用は依然として困難である。
Llama-EntScore は Llama 3.1 と NER の組み合わせとチューナブルウェイトを組み合わせた意味的類似性スコア法である。
論文 参考訳(メタデータ) (2025-10-03T15:31:11Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Exploring Multilingual Large Language Models for Enhanced TNM classification of Radiology Report in lung cancer staging [0.055923945039144905]
大型言語モデル(LLM)は、自然言語による放射線学レポートの構造化を自動化することを約束する。
本研究の目的は,GPT3.5-turbo (GPT3.5) を用いた放射線学報告に基づくTNM分類の精度と日本語と英語の多言語LPMの有用性を検討することである。
論文 参考訳(メタデータ) (2024-06-05T16:11:55Z) - The current status of large language models in summarizing radiology report impressions [13.402769727597812]
大きな言語モデル(LLMs)が放射線学レポートの印象を要約する効果は、まだ不明である。
北京大学医学部附属病院からCT,PET-CT,超音波の3種類の放射線学報告を収集した。
本報告では,ゼロショット,ワンショット,3ショットのプロンプトを完全な実例で構築し,インプレッションを生成する。
論文 参考訳(メタデータ) (2024-06-04T09:23:30Z) - FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence [46.71469172542448]
本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
論文 参考訳(メタデータ) (2024-02-18T04:45:01Z) - Evaluating Large Language Models for Radiology Natural Language
Processing [68.98847776913381]
大規模言語モデル(LLM)の台頭は、自然言語処理(NLP)分野における重要な転換点となっている。
本研究は, 放射線学報告の解釈において, 30 個の LLM を批判的に評価することにより, このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2023-07-25T17:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。