論文の概要: IHC-LLMiner: Automated extraction of tumour immunohistochemical profiles from PubMed abstracts using large language models
- arxiv url: http://arxiv.org/abs/2504.00748v1
- Date: Tue, 01 Apr 2025 12:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 15:43:09.086494
- Title: IHC-LLMiner: Automated extraction of tumour immunohistochemical profiles from PubMed abstracts using large language models
- Title(参考訳): IHC-LLMiner:大規模言語モデルを用いたPubMed抽象体からの腫瘍免疫組織化学的プロファイルの自動抽出
- Authors: Yunsoo Kim, Michal W. S. Ong, Daniel W. Rogalsky, Manuel Rodriguez-Justo, Honghan Wu, Adam P. Levine,
- Abstract要約: 本研究では,自動パイプライン IHC-LLMiner を用いて,PubMed の抽象化からIHC-腫瘍プロファイルを抽出する。
最高のパフォーマンスモデルである"Gemma-2 finetuned"は91.5%の精度でF1スコアは91.4である。
- 参考スコア(独自算出の注目度): 1.8249814392699033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Immunohistochemistry (IHC) is essential in diagnostic pathology and biomedical research, offering critical insights into protein expression and tumour biology. This study presents an automated pipeline, IHC-LLMiner, for extracting IHC-tumour profiles from PubMed abstracts, leveraging advanced biomedical text mining. There are two subtasks: abstract classification (include/exclude as relevant) and IHC-tumour profile extraction on relevant included abstracts. The best-performing model, "Gemma-2 finetuned", achieved 91.5% accuracy and an F1 score of 91.4, outperforming GPT4-O by 9.5% accuracy with 5.9 times faster inference time. From an initial dataset of 107,759 abstracts identified for 50 immunohistochemical markers, the classification task identified 30,481 relevant abstracts (Include) using the Gemma-2 finetuned model. For IHC-tumour profile extraction, the Gemma-2 finetuned model achieved the best performance with 63.3% Correct outputs. Extracted IHC-tumour profiles (tumour types and markers) were normalised to Unified Medical Language System (UMLS) concepts to ensure consistency and facilitate IHC-tumour profile landscape analysis. The extracted IHC-tumour profiles demonstrated excellent concordance with available online summary data and provided considerable added value in terms of both missing IHC-tumour profiles and quantitative assessments. Our proposed LLM based pipeline provides a practical solution for large-scale IHC-tumour profile data mining, enhancing the accessibility and utility of such data for research and clinical applications as well as enabling the generation of quantitative and structured data to support cancer-specific knowledge base development. Models and training datasets are available at https://github.com/knowlab/IHC-LLMiner.
- Abstract(参考訳): 免疫組織化学(IHC)は、診断病理学および生医学研究において必須であり、タンパク質の発現と腫瘍生物学に関する重要な知見を提供する。
本研究は, バイオメディカルテキストマイニングを応用して, PubMedからIHC腫瘍プロファイルを抽出する自動パイプライン IHC-LLMiner を提案する。
抽象分類(関連するものとして含める/含まない)とIHC-腫瘍プロファイル抽出の2つのサブタスクがある。
最高のパフォーマンスモデルである"Gemma-2 finetuned"は91.5%の精度でF1スコアは91.4であり、GPT4-Oは9.5%、推論時間は5.9倍だった。
50の免疫組織化学的マーカーで同定された107,759個の初期データセットから、Gemma-2微調整モデルを用いて30,481個の関連する抽象物(包括的)を同定した。
IHC-tumourプロファイル抽出では、Gemma-2の微調整されたモデルが63.3%の正確な出力で最高の性能を達成した。
抽出したIHC-腫瘍プロファイル(腫瘍型とマーカー)をUMLS(Unified Medical Language System)の概念に標準化し,一貫性を確保し,IHC-腫瘍プロファイルのランドスケープ解析を容易にする。
抽出したIHC-tumour profileは,オンライン要約データと良好な一致を示し,欠落したIHC-tumour profileと定量的評価の両方の観点からかなりの付加価値を与えた。
提案したLSMベースのパイプラインは,大規模IHC-腫瘍プロファイルデータマイニングのための実用的なソリューションを提供し,研究および臨床応用におけるそれらのデータのアクセシビリティと有用性を向上するとともに,定量的かつ構造化されたデータの生成により,がん特異的な知識ベースの開発を支援する。
モデルとトレーニングデータセットはhttps://github.com/knowlab/IHC-LLMiner.comで公開されている。
関連論文リスト
- MAST-Pro: Dynamic Mixture-of-Experts for Adaptive Segmentation of Pan-Tumors with Knowledge-Driven Prompts [54.915060471994686]
MAST-Proは,ダイナミックなMixture-of-Experts(D-MoE)とパン腫瘍セグメンテーションのための知識駆動プロンプトを統合した新しいフレームワークである。
具体的には、テキストと解剖学的プロンプトは、腫瘍表現学習を導くドメイン固有の事前情報を提供し、D-MoEは、ジェネリックと腫瘍固有の特徴学習のバランスをとる専門家を動的に選択する。
マルチ解剖学的腫瘍データセットの実験では、MAST-Proは最先端のアプローチよりも優れており、トレーニング可能なパラメータを91.04%削減し、平均改善の5.20%を達成している。
論文 参考訳(メタデータ) (2025-03-18T15:39:44Z) - Hybrid deep learning-based strategy for the hepatocellular carcinoma cancer grade classification of H&E stained liver histopathology images [2.833640239679924]
肝細胞癌(HCC)は肝癌の一種であり,早期診断が一般的である。
本稿では、トランスファーラーニングを用いて、事前学習された畳み込みニューラルネットワーク(CNN)モデルから特徴を抽出するハイブリッドディープラーニングベースのアーキテクチャを提案する。
提案したハイブリッドモデルでは,TCGA-LIHCおよびKMCデータベースの事前学習モデルよりも2%,4%の精度が向上した。
論文 参考訳(メタデータ) (2024-12-04T07:26:36Z) - Explainable Biomedical Hypothesis Generation via Retrieval Augmented Generation enabled Large Language Models [46.05020842978823]
大規模言語モデル(LLM)はこの複雑なデータランドスケープをナビゲートする強力なツールとして登場した。
RAGGEDは、知識統合と仮説生成を伴う研究者を支援するために設計された包括的なワークフローである。
論文 参考訳(メタデータ) (2024-07-17T07:44:18Z) - IHC Matters: Incorporating IHC analysis to H&E Whole Slide Image Analysis for Improved Cancer Grading via Two-stage Multimodal Bilinear Pooling Fusion [19.813558168408047]
IHCとH&Eは相補的な性質を保ちながら、明確な長所と短所があることが示される。
機能プーリングモジュールを用いた2段階のマルチモーダルバイリニアモデルを開発した。
実験により、H&E染色画像とともに、機械学習モデルにIHCデータを組み込むことで、がんのグレーディングに優れた予測結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-13T21:21:44Z) - CIMIL-CRC: a clinically-informed multiple instance learning framework for patient-level colorectal cancer molecular subtypes classification from H\&E stained images [42.771819949806655]
CIMIL-CRCは、事前学習した特徴抽出モデルと主成分分析(PCA)を効率よく組み合わせ、全てのパッチから情報を集約することで、MSI/MSS MIL問題を解決するフレームワークである。
我々は,TCGA-CRC-DXコホートを用いたモデル開発のための5倍のクロスバリデーション実験装置を用いて,曲線下平均面積(AUC)を用いてCIMIL-CRC法の評価を行った。
論文 参考訳(メタデータ) (2024-01-29T12:56:11Z) - hist2RNA: An efficient deep learning architecture to predict gene
expression from breast cancer histopathology images [11.822321981275232]
深層学習アルゴリズムは、デジタル病理画像中の形態パターンを効果的に抽出し、分子の表現型を迅速かつ低コストで予測することができる。
我々は,138遺伝子の発現を予測するために,バルクRNAシークエンシング技術にインスパイアされたhist2RNAという新しい計算効率の高い手法を提案する。
論文 参考訳(メタデータ) (2023-04-10T10:54:32Z) - Lung Cancer Lesion Detection in Histopathology Images Using Graph-Based
Sparse PCA Network [93.22587316229954]
ヘマトキシリンとエオシン(H&E)で染色した組織学的肺スライドにおける癌病変の自動検出のためのグラフベーススパース成分分析(GS-PCA)ネットワークを提案する。
我々は,SVM K-rasG12D肺がんモデルから得られたH&Eスライダーの精度・リコール率,Fスコア,谷本係数,レシーバ演算子特性(ROC)の曲線下領域を用いて,提案アルゴリズムの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-27T19:28:36Z) - Machine Learning and Glioblastoma: Treatment Response Monitoring
Biomarkers in 2021 [0.3266995794795542]
組織的検討の目的は,成人のグリオブラスト腫治療反応モニタリングバイオマーカーの診断検査精度に関する最近の研究を評価することである。
MRI機能を使用して進行と模倣を区別する機械学習モデルの良好な診断性能がある可能性が高い。
暗黙的特徴を用いたMLの診断性能は明示的特徴を用いたMLよりも優れていなかった。
論文 参考訳(メタデータ) (2021-04-15T10:49:34Z) - Comparison of Machine Learning Classifiers to Predict Patient Survival
and Genetics of GBM: Towards a Standardized Model for Clinical Implementation [44.02622933605018]
放射線モデルは、グリオ芽腫(GBM)の結果予測のための臨床データを上回ることが示されています。
GBM患者の生存率(OS),IDH変異,O-6-メチルグアニン-DNA-メチルトランスフェラーゼ(MGMT)プロモーターメチル化,EGFR(EGFR)VII増幅,Ki-67発現の9種類の機械学習分類器を比較した。
xgb は os (74.5%), ab for idh 変異 (88%), mgmt メチル化 (71,7%), ki-67 発現 (86,6%), egfr増幅 (81。
論文 参考訳(メタデータ) (2021-02-10T15:10:37Z) - Applying a random projection algorithm to optimize machine learning
model for predicting peritoneal metastasis in gastric cancer patients using
CT images [0.3120960917423201]
手術前の癌転移のリスクを非侵襲的に予測することは、最適な治療方法を決定する上で重要な役割を担っている。
本研究では,小・不均衡の画像データセットを用いて最適な機械学習モデルを構築するための新しいアプローチについて検討する。
論文 参考訳(メタデータ) (2020-09-01T19:53:09Z) - Segmentation of the Myocardium on Late-Gadolinium Enhanced MRI based on
2.5 D Residual Squeeze and Excitation Deep Learning Model [55.09533240649176]
本研究の目的は,LGE-MRIを用いた心筋境界領域の深部学習モデルに基づく正確な自動セグメンテーション法を開発することである。
合計320回の試験(平均6回の試験)と28回の試験が行われた。
ベーススライスとミドルスライスにおけるアンサンブルモデルの性能解析は, サーバ内調査と同等であり, アトピーススライスではわずかに低かった。
論文 参考訳(メタデータ) (2020-05-27T20:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。