論文の概要: IHC-LLMiner: Automated extraction of tumour immunohistochemical profiles from PubMed abstracts using large language models
- arxiv url: http://arxiv.org/abs/2504.00748v1
- Date: Tue, 01 Apr 2025 12:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:52.917275
- Title: IHC-LLMiner: Automated extraction of tumour immunohistochemical profiles from PubMed abstracts using large language models
- Title(参考訳): IHC-LLMiner:大規模言語モデルを用いたPubMed抽象体からの腫瘍免疫組織化学的プロファイルの自動抽出
- Authors: Yunsoo Kim, Michal W. S. Ong, Daniel W. Rogalsky, Manuel Rodriguez-Justo, Honghan Wu, Adam P. Levine,
- Abstract要約: 本研究では,自動パイプライン IHC-LLMiner を用いて,PubMed の抽象化からIHC-腫瘍プロファイルを抽出する。
最高のパフォーマンスモデルである"Gemma-2 finetuned"は91.5%の精度でF1スコアは91.4である。
- 参考スコア(独自算出の注目度): 1.8249814392699033
- License:
- Abstract: Immunohistochemistry (IHC) is essential in diagnostic pathology and biomedical research, offering critical insights into protein expression and tumour biology. This study presents an automated pipeline, IHC-LLMiner, for extracting IHC-tumour profiles from PubMed abstracts, leveraging advanced biomedical text mining. There are two subtasks: abstract classification (include/exclude as relevant) and IHC-tumour profile extraction on relevant included abstracts. The best-performing model, "Gemma-2 finetuned", achieved 91.5% accuracy and an F1 score of 91.4, outperforming GPT4-O by 9.5% accuracy with 5.9 times faster inference time. From an initial dataset of 107,759 abstracts identified for 50 immunohistochemical markers, the classification task identified 30,481 relevant abstracts (Include) using the Gemma-2 finetuned model. For IHC-tumour profile extraction, the Gemma-2 finetuned model achieved the best performance with 63.3% Correct outputs. Extracted IHC-tumour profiles (tumour types and markers) were normalised to Unified Medical Language System (UMLS) concepts to ensure consistency and facilitate IHC-tumour profile landscape analysis. The extracted IHC-tumour profiles demonstrated excellent concordance with available online summary data and provided considerable added value in terms of both missing IHC-tumour profiles and quantitative assessments. Our proposed LLM based pipeline provides a practical solution for large-scale IHC-tumour profile data mining, enhancing the accessibility and utility of such data for research and clinical applications as well as enabling the generation of quantitative and structured data to support cancer-specific knowledge base development. Models and training datasets are available at https://github.com/knowlab/IHC-LLMiner.
- Abstract(参考訳): 免疫組織化学(IHC)は、診断病理学および生医学研究において必須であり、タンパク質の発現と腫瘍生物学に関する重要な知見を提供する。
本研究は, バイオメディカルテキストマイニングを応用して, PubMedからIHC腫瘍プロファイルを抽出する自動パイプライン IHC-LLMiner を提案する。
抽象分類(関連するものとして含める/含まない)とIHC-腫瘍プロファイル抽出の2つのサブタスクがある。
最高のパフォーマンスモデルである"Gemma-2 finetuned"は91.5%の精度でF1スコアは91.4であり、GPT4-Oは9.5%、推論時間は5.9倍だった。
50の免疫組織化学的マーカーで同定された107,759個の初期データセットから、Gemma-2微調整モデルを用いて30,481個の関連する抽象物(包括的)を同定した。
IHC-tumourプロファイル抽出では、Gemma-2の微調整されたモデルが63.3%の正確な出力で最高の性能を達成した。
抽出したIHC-腫瘍プロファイル(腫瘍型とマーカー)をUMLS(Unified Medical Language System)の概念に標準化し,一貫性を確保し,IHC-腫瘍プロファイルのランドスケープ解析を容易にする。
抽出したIHC-tumour profileは,オンライン要約データと良好な一致を示し,欠落したIHC-tumour profileと定量的評価の両方の観点からかなりの付加価値を与えた。
提案したLSMベースのパイプラインは,大規模IHC-腫瘍プロファイルデータマイニングのための実用的なソリューションを提供し,研究および臨床応用におけるそれらのデータのアクセシビリティと有用性を向上するとともに,定量的かつ構造化されたデータの生成により,がん特異的な知識ベースの開発を支援する。
モデルとトレーニングデータセットはhttps://github.com/knowlab/IHC-LLMiner.comで公開されている。
関連論文リスト
- Cancer-Net PCa-Seg: Benchmarking Deep Learning Models for Prostate Cancer Segmentation Using Synthetic Correlated Diffusion Imaging [65.83291923029985]
前立腺癌(PCa)は米国で最も多いがんであり、約30,000人、全診断の29%、2024年に35,000人が死亡した。
前立腺特異的抗原 (PSA) 検査やMRI (MRI) などの従来のスクリーニング法は診断において重要であるが、特異性や一般化性には限界がある。
我々はU-Net、SegResNet、Swin UNETR、Attention U-Net、LightM-UNetといった最先端のディープラーニングモデルを用いて、200ドルのCDIからPCa病変を抽出する。
論文 参考訳(メタデータ) (2025-01-15T22:23:41Z) - Hybrid deep learning-based strategy for the hepatocellular carcinoma cancer grade classification of H&E stained liver histopathology images [2.833640239679924]
肝細胞癌(HCC)は肝癌の一種であり,早期診断が一般的である。
本稿では、トランスファーラーニングを用いて、事前学習された畳み込みニューラルネットワーク(CNN)モデルから特徴を抽出するハイブリッドディープラーニングベースのアーキテクチャを提案する。
提案したハイブリッドモデルでは,TCGA-LIHCおよびKMCデータベースの事前学習モデルよりも2%,4%の精度が向上した。
論文 参考訳(メタデータ) (2024-12-04T07:26:36Z) - MGH Radiology Llama: A Llama 3 70B Model for Radiology [50.42811030970618]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。
Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。
従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文 参考訳(メタデータ) (2024-08-13T01:30:03Z) - IHC Matters: Incorporating IHC analysis to H&E Whole Slide Image Analysis for Improved Cancer Grading via Two-stage Multimodal Bilinear Pooling Fusion [19.813558168408047]
IHCとH&Eは相補的な性質を保ちながら、明確な長所と短所があることが示される。
機能プーリングモジュールを用いた2段階のマルチモーダルバイリニアモデルを開発した。
実験により、H&E染色画像とともに、機械学習モデルにIHCデータを組み込むことで、がんのグレーディングに優れた予測結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-13T21:21:44Z) - hist2RNA: An efficient deep learning architecture to predict gene
expression from breast cancer histopathology images [11.822321981275232]
深層学習アルゴリズムは、デジタル病理画像中の形態パターンを効果的に抽出し、分子の表現型を迅速かつ低コストで予測することができる。
我々は,138遺伝子の発現を予測するために,バルクRNAシークエンシング技術にインスパイアされたhist2RNAという新しい計算効率の高い手法を提案する。
論文 参考訳(メタデータ) (2023-04-10T10:54:32Z) - Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。
グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。
当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文 参考訳(メタデータ) (2022-04-22T17:27:00Z) - Lung Cancer Lesion Detection in Histopathology Images Using Graph-Based
Sparse PCA Network [93.22587316229954]
ヘマトキシリンとエオシン(H&E)で染色した組織学的肺スライドにおける癌病変の自動検出のためのグラフベーススパース成分分析(GS-PCA)ネットワークを提案する。
我々は,SVM K-rasG12D肺がんモデルから得られたH&Eスライダーの精度・リコール率,Fスコア,谷本係数,レシーバ演算子特性(ROC)の曲線下領域を用いて,提案アルゴリズムの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-27T19:28:36Z) - Machine Learning and Glioblastoma: Treatment Response Monitoring
Biomarkers in 2021 [0.3266995794795542]
組織的検討の目的は,成人のグリオブラスト腫治療反応モニタリングバイオマーカーの診断検査精度に関する最近の研究を評価することである。
MRI機能を使用して進行と模倣を区別する機械学習モデルの良好な診断性能がある可能性が高い。
暗黙的特徴を用いたMLの診断性能は明示的特徴を用いたMLよりも優れていなかった。
論文 参考訳(メタデータ) (2021-04-15T10:49:34Z) - M3Lung-Sys: A Deep Learning System for Multi-Class Lung Pneumonia
Screening from CT Imaging [85.00066186644466]
マルチタスク型マルチスライス深層学習システム(M3Lung-Sys)を提案する。
COVID-19とHealthy, H1N1, CAPとの鑑別に加えて, M3 Lung-Sysも関連病変の部位を特定できる。
論文 参考訳(メタデータ) (2020-10-07T06:22:24Z) - Applying a random projection algorithm to optimize machine learning
model for predicting peritoneal metastasis in gastric cancer patients using
CT images [0.3120960917423201]
手術前の癌転移のリスクを非侵襲的に予測することは、最適な治療方法を決定する上で重要な役割を担っている。
本研究では,小・不均衡の画像データセットを用いて最適な機械学習モデルを構築するための新しいアプローチについて検討する。
論文 参考訳(メタデータ) (2020-09-01T19:53:09Z) - Segmentation of the Myocardium on Late-Gadolinium Enhanced MRI based on
2.5 D Residual Squeeze and Excitation Deep Learning Model [55.09533240649176]
本研究の目的は,LGE-MRIを用いた心筋境界領域の深部学習モデルに基づく正確な自動セグメンテーション法を開発することである。
合計320回の試験(平均6回の試験)と28回の試験が行われた。
ベーススライスとミドルスライスにおけるアンサンブルモデルの性能解析は, サーバ内調査と同等であり, アトピーススライスではわずかに低かった。
論文 参考訳(メタデータ) (2020-05-27T20:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。