論文の概要: Enhancing Lung Cancer Treatment Outcome Prediction through Semantic Feature Engineering Using Large Language Models
- arxiv url: http://arxiv.org/abs/2512.20633v1
- Date: Mon, 01 Dec 2025 23:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 00:37:57.102232
- Title: Enhancing Lung Cancer Treatment Outcome Prediction through Semantic Feature Engineering Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたセマンティック特徴工学による肺癌治療成績予測の強化
- Authors: MunHwan Lee, Shaika Chowdhury, Xiaodi Li, Sivaraman Rajaganapathy, Eric W Klee, Ping Yang, Terence Sio, Liewei Wang, James Cerhan, Nansu NA Zong,
- Abstract要約: GKC(Goal-oriented Knowledge Curators)として,LLM(Large Language Models)を用いたフレームワークを導入する。
GKCは、実験室、ゲノム、薬品のデータを高忠実でタスク整合性のある特徴に変換する。
我々はGKCを専門家が設計した機能、直接テキスト埋め込み、エンドツーエンドのトランスフォーマーと比較した。
- 参考スコア(独自算出の注目度): 5.778370321351782
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate prediction of treatment outcomes in lung cancer remains challenging due to the sparsity, heterogeneity, and contextual overload of real-world electronic health data. Traditional models often fail to capture semantic information across multimodal streams, while large-scale fine-tuning approaches are impractical in clinical workflows. We introduce a framework that uses Large Language Models (LLMs) as Goal-oriented Knowledge Curators (GKC) to convert laboratory, genomic, and medication data into high-fidelity, task-aligned features. Unlike generic embeddings, GKC produces representations tailored to the prediction objective and operates as an offline preprocessing step that integrates naturally into hospital informatics pipelines. Using a lung cancer cohort (N=184), we benchmarked GKC against expert-engineered features, direct text embeddings, and an end-to-end transformer. Our approach achieved a mean AUROC of 0.803 (95% CI: 0.799-0.807) and outperformed all baselines. An ablation study further confirmed the complementary value of combining all three modalities. These results show that the quality of semantic representation is a key determinant of predictive accuracy in sparse clinical data settings. By reframing LLMs as knowledge curation engines rather than black-box predictors, this work demonstrates a scalable, interpretable, and workflow-compatible pathway for advancing AI-driven decision support in oncology.
- Abstract(参考訳): 肺がんにおける治療結果の正確な予測は、実際の電子健康データの空間性、不均一性、文脈的過負荷のため、依然として困難である。
従来のモデルでは、マルチモーダルストリームのセマンティックな情報をキャプチャできないことが多いが、大規模な微調整アプローチは、臨床ワークフローでは現実的ではない。
本稿では,大規模言語モデル(LLM)をゴール指向の知識キュレーター(GKC)として活用し,実験室,ゲノム,薬品データを高忠実でタスク整合性に変換するフレームワークを提案する。
一般的な埋め込みとは異なり、GKCは予測対象に合わせて表現を生成し、病院の情報パイプラインに自然に統合するオフライン前処理ステップとして機能する。
肺がんコホート(N=184)を用いて,GKCを専門家工学的特徴,直接テキスト埋め込み,エンドツーエンドトランスフォーマーと比較した。
我々のアプローチは平均0.803のAUROC(95% CI: 0.799-0.807)を達成し、すべてのベースラインを上回りました。
アブレーション実験により, これら3つのモダリティの組み合わせの相補的価値がさらに確認された。
これらの結果から, セマンティック表現の質は, スパースな臨床データ設定における予測精度の重要な決定要因であることが示唆された。
ブラックボックス予測エンジンではなくナレッジキュレーションエンジンとしてLLMをリフレッシュすることで、オンコロジーにおけるAI駆動の意思決定サポートを進めるためのスケーラブルで解釈可能な、ワークフロー互換のパスを実証する。
関連論文リスト
- Prior-informed optimization of treatment recommendation via bandit algorithms trained on large language model-processed historical records [0.6875312133832079]
現在の医療実践は、患者個別のバリエーションを無視した標準化された治療枠組みと経験的手法に依存している。
本研究では,Large Language Models (LLMs), Conditional Tabular Generative Adversarial Networks (CTGAN), T-learner counterfactual model, and contextual bandit approachを統合した総合システムを構築した。
論文 参考訳(メタデータ) (2025-10-21T18:57:00Z) - Interpretable Clinical Classification with Kolgomorov-Arnold Networks [70.72819760172744]
Kolmogorov-Arnold Networks (KAN) は、透明で象徴的な表現を通じて固有の解釈能力を提供する。
Kansは、組み込みの患者レベルの洞察、直感的な可視化、最寄りの患者の検索をサポートする。
これらの結果は、カンを、臨床医が理解し、監査し、行動できる信頼できるAIへの有望なステップと位置づけている。
論文 参考訳(メタデータ) (2025-09-20T17:21:58Z) - AUTOCT: Automating Interpretable Clinical Trial Prediction with LLM Agents [47.640779069547534]
AutoCTは、大規模言語モデルの推論能力と古典的な機械学習の説明可能性を組み合わせた、新しいフレームワークである。
臨床治験予測タスクにおいて, AutoCT は SOTA 法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2025-06-04T11:50:55Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - Prediction of Lung Metastasis from Hepatocellular Carcinoma using the SEER Database [0.9055332067000195]
肝細胞癌(HCC)は、がん関連死亡の原因である。
HCCにおける肺転移の予測モデルは、範囲と臨床応用性に限られている。
本研究では,Surveillance, Epidemiology, End Results (SEER)データベースのデータを用いて,エンドツーエンドの機械学習パイプラインの開発と検証を行う。
論文 参考訳(メタデータ) (2025-01-20T20:06:31Z) - XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。
我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。
我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文 参考訳(メタデータ) (2023-12-29T14:28:04Z) - Semi-supervised ViT knowledge distillation network with style transfer
normalization for colorectal liver metastases survival prediction [1.283897253352624]
本稿では,H&EおよびHPSで染色した組織学的スライドを用いて,自動予後予測のためのエンドツーエンドアプローチを提案する。
まずGAN(Generative Adversarial Network)を用いてスライス正規化を行い、染色のばらつきを低減し、予測パイプラインへの入力として使用される画像の全体的な品質を向上させる。
転移性結節および周囲組織から抽出した特徴を利用して予後モデルを訓練し,同時に知識蒸留フレームワークで視覚変換器(ViT)を訓練し,予後予測の性能を再現し,向上させる。
論文 参考訳(メタデータ) (2023-11-17T03:32:11Z) - Improving Clinical Decision Support through Interpretable Machine Learning and Error Handling in Electronic Health Records [6.594072648536156]
Trust-MAPSは、臨床領域の知識を高次元の混合整数プログラミングモデルに変換する。
信頼スコアは、臨床決定支援タスクの予測性能を高めるだけでなく、MLモデルに解釈可能性を与える臨床的に有意義な特徴として出現する。
論文 参考訳(メタデータ) (2023-08-21T15:14:49Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。