論文の概要: Development of a Large-scale Dataset of Chest Computed Tomography Reports in Japanese and a High-performance Finding Classification Model
- arxiv url: http://arxiv.org/abs/2412.15907v1
- Date: Fri, 20 Dec 2024 13:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:22:06.670326
- Title: Development of a Large-scale Dataset of Chest Computed Tomography Reports in Japanese and a High-performance Finding Classification Model
- Title(参考訳): 日本人における胸部CT画像の大規模データセットの開発と高速検索分類モデル
- Authors: Yosuke Yamagishi, Yuta Nakamura, Tomohiro Kikuchi, Yuki Sonoda, Hiroshi Hirakawa, Shintaro Kano, Satoshi Nakamura, Shouhei Hanaoka, Takeharu Yoshikawa, Osamu Abe,
- Abstract要約: 大規模言語モデルの最近の進歩は、高品質な多言語医療データセットの必要性を強調している。
我が国はCTスキャナの展開と利用を世界中にリードしているが,大規模な放射線学データセットの欠如により,医用画像解析のための特化言語モデルの開発が妨げられている。
われわれは,CT-BERT-JPNを「tohoku-nlp/bert-base-japanese-v3」アーキテクチャで構築した。
- 参考スコア(独自算出の注目度): 4.989937142229914
- License:
- Abstract: Background: Recent advances in large language models highlight the need for high-quality multilingual medical datasets. While Japan leads globally in CT scanner deployment and utilization, the lack of large-scale Japanese radiology datasets has hindered the development of specialized language models for medical imaging analysis. Objective: To develop a comprehensive Japanese CT report dataset through machine translation and establish a specialized language model for structured finding classification. Additionally, to create a rigorously validated evaluation dataset through expert radiologist review. Methods: We translated the CT-RATE dataset (24,283 CT reports from 21,304 patients) into Japanese using GPT-4o mini. The training dataset consisted of 22,778 machine-translated reports, while the validation dataset included 150 radiologist-revised reports. We developed CT-BERT-JPN based on "tohoku-nlp/bert-base-japanese-v3" architecture for extracting 18 structured findings from Japanese radiology reports. Results: Translation metrics showed strong performance with BLEU scores of 0.731 and 0.690, and ROUGE scores ranging from 0.770 to 0.876 for Findings and from 0.748 to 0.857 for Impression sections. CT-BERT-JPN demonstrated superior performance compared to GPT-4o in 11 out of 18 conditions, including lymphadenopathy (+14.2%), interlobular septal thickening (+10.9%), and atelectasis (+7.4%). The model maintained F1 scores exceeding 0.95 in 14 out of 18 conditions and achieved perfect scores in four conditions. Conclusions: Our study establishes a robust Japanese CT report dataset and demonstrates the effectiveness of a specialized language model for structured finding classification. The hybrid approach of machine translation and expert validation enables the creation of large-scale medical datasets while maintaining high quality.
- Abstract(参考訳): 背景: 大規模言語モデルの最近の進歩は、高品質な多言語医療データセットの必要性を強調している。
我が国はCTスキャナの展開と利用を世界中にリードしているが,大規模な放射線学データセットの欠如により,医用画像解析のための特化言語モデルの開発が妨げられている。
目的: 機械翻訳による総合的なCTレポートデータセットを開発し, 構造化された検索分類のための言語モデルを確立すること。
さらに、専門家の放射線学者のレビューを通じて、厳格に検証された評価データセットを作成する。
方法: GPT-4o miniを用いてCT-RATEデータセット(21,304例から24,283例)を日本語に翻訳した。
トレーニングデータセットは22,778件の機械翻訳レポートで構成され、検証データセットには150件の放射線学者によるレポートが含まれていた。
われわれは,CT-BERT-JPNを「tohoku-nlp/bert-base-japanese-v3」アーキテクチャで構築した。
結果: BLEUスコア0.731, 0.690, ROUGEスコア0.770, 0.876, Impressionセクション0.748, 0.857で高い成績を示した。
CT-BERT-JPNは18例中11例中11例でGPT-4oよりも優れた成績を示し, リンパ腫症(+14.2%), 尿中中隔肥厚(+10.9%), 気腫(+7.4%)が認められた。
F1は18条件中14条件で0.95点を超え、4条件で完走した。
結論: 本研究は, 頑健なCTレポートデータセットを構築し, 構造化された検索分類のための特殊言語モデルの有効性を実証する。
機械翻訳と専門的検証のハイブリッドアプローチは、高品質を維持しながら大規模な医療データセットの作成を可能にする。
関連論文リスト
- Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation [42.06416052431378]
2Dラジオグラフィーキャプションは、ボリューム3D解剖学における現実の診断課題を反映するものではない。
我々は18,885組の3D-BrainCTデータセットを収集し,臨床ビジュアルインストラクション・チューニングを用いて,脳波モデルを用いて放射線治療を施した3D脳CTレポートを作成した。
私たちの研究は、3Dの脳CTデータセットのキュレーション、微調整による解剖学的意味のある言語モデル、堅牢な放射線学評価指標の提案など、総合的な枠組みを具現化したものです。
論文 参考訳(メタデータ) (2024-07-02T12:58:35Z) - Leveraging Prompt-Learning for Structured Information Extraction from Crohn's Disease Radiology Reports in a Low-Resource Language [11.688665498310405]
SMP-BERTは、自由テキストラジオグラフィーレポートを自動的に構造化データに変換する新しいプロンプト学習法である。
そこで本研究では,SMP-BERTが従来の微調整法をはるかに上回った。
論文 参考訳(メタデータ) (2024-05-02T19:11:54Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - Learning to diagnose common thorax diseases on chest radiographs from
radiology reports in Vietnamese [0.33598755777055367]
ベトナムの放射線学報告から情報を抽出し,胸部X線(CXR)画像の正確なラベルを提供するデータ収集・アノテーションパイプラインを提案する。
このことは、ベトナムの放射線学者や臨床医が、国によって異なる可能性のある内因性診断カテゴリと密接に一致したデータに注釈を付けることで、ベトナムの放射線技師や臨床医に利益をもたらす可能性がある。
論文 参考訳(メタデータ) (2022-09-11T06:06:03Z) - TotalSegmentator: robust segmentation of 104 anatomical structures in CT
images [48.50994220135258]
身体CT画像の深層学習セグメント化モデルを提案する。
このモデルは、臓器の容積、疾患の特徴、外科的または放射線療法計画などのユースケースに関連する104の解剖学的構造を区分することができる。
論文 参考訳(メタデータ) (2022-08-11T15:16:40Z) - Event-based clinical findings extraction from radiology reports with
pre-trained language model [0.22940141855172028]
今回,臨床所見を付加した新しい放射線診断報告のコーパスを報告する。
金の標準コーパスには合計500点の注記CTレポートが含まれていた。
BERTを含む2つの最先端ディープラーニングアーキテクチャを用いて、トリガと引数のエンティティを抽出した。
論文 参考訳(メタデータ) (2021-12-27T05:03:10Z) - Medical-VLBERT: Medical Visual Language BERT for COVID-19 CT Report
Generation With Alternate Learning [70.71564065885542]
本稿では,医療用ビジュアル言語BERT(Medical-VLBERT)モデルを用いて,新型コロナウイルススキャンの異常を同定する。
このモデルは、知識事前学習と伝達の2つの手順で、代替的な学習戦略を採用する。
COVID-19患者に対する医療報告の自動作成のために,中国語で368例,胸部CTで1104例の検診を行った。
論文 参考訳(メタデータ) (2021-08-11T07:12:57Z) - Deep learning-based COVID-19 pneumonia classification using chest CT
images: model generalizability [54.86482395312936]
深層学習(DL)分類モデルは、異なる国の3DCTデータセット上で、COVID-19陽性患者を特定するために訓練された。
我々は、データセットと72%の列車、8%の検証、20%のテストデータを組み合わせたDLベースの9つの同一分類モデルを訓練した。
複数のデータセットでトレーニングされ、トレーニングに使用されるデータセットの1つからテストセットで評価されたモデルは、よりよいパフォーマンスを示した。
論文 参考訳(メタデータ) (2021-02-18T21:14:52Z) - Machine-Learning-Based Multiple Abnormality Prediction with Large-Scale
Chest Computed Tomography Volumes [64.21642241351857]
19,993症例から36,316巻の胸部CTデータセットを収集,解析した。
自由テキストラジオグラフィーレポートから異常ラベルを自動的に抽出するルールベース手法を開発した。
胸部CTボリュームの多臓器・多臓器分類モデルも開発した。
論文 参考訳(メタデータ) (2020-02-12T00:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。