論文の概要: OncoReason: Structuring Clinical Reasoning in LLMs for Robust and Interpretable Survival Prediction
- arxiv url: http://arxiv.org/abs/2510.17532v1
- Date: Mon, 20 Oct 2025 13:35:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.469235
- Title: OncoReason: Structuring Clinical Reasoning in LLMs for Robust and Interpretable Survival Prediction
- Title(参考訳): OncoReason:ロバスト・サバイバル予測のためのLCMにおける臨床推論の構造化
- Authors: Raghu Vamshi Hemadri, Geetha Krishna Guruju, Kristi Topollai, Anna Ewa Choromanska,
- Abstract要約: 大規模言語モデル (LLM) は, バイオメディカルNLPにおいて高い性能を示した。
本稿では,自己回帰型LPMと結果予測のための臨床推論を整合させる,統合型マルチタスク学習フレームワークを提案する。
マルチタスク・クリニカル・モデリングにおける推論・アライメントの重要性について検討した。
- 参考スコア(独自算出の注目度): 2.904892426557913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting cancer treatment outcomes requires models that are both accurate and interpretable, particularly in the presence of heterogeneous clinical data. While large language models (LLMs) have shown strong performance in biomedical NLP, they often lack structured reasoning capabilities critical for high-stakes decision support. We present a unified, multi-task learning framework that aligns autoregressive LLMs with clinical reasoning for outcome prediction on the MSK-CHORD dataset. Our models are trained to jointly perform binary survival classification, continuous survival time regression, and natural language rationale generation. We evaluate three alignment strategies: (1) standard supervised fine-tuning (SFT), (2) SFT with Chain-of-Thought (CoT) prompting to elicit step-by-step reasoning, and (3) Group Relative Policy Optimization (GRPO), a reinforcement learning method that aligns model outputs to expert-derived reasoning trajectories. Experiments with LLaMa3-8B and Med42-8B backbones demonstrate that CoT prompting improves F1 by +6.0 and reduces MAE by 12%, while GRPO achieves state-of-the-art interpretability and predictive performance across BLEU, ROUGE, and BERTScore. We further show that existing biomedical LLMs often fail to produce valid reasoning traces due to architectural constraints. Our findings underscore the importance of reasoning-aware alignment in multi-task clinical modeling and set a new benchmark for interpretable, trustworthy LLMs in precision oncology.
- Abstract(参考訳): がん治療の結果を予測するには、正確かつ解釈可能なモデル、特に異種の臨床データの存在が必要である。
大規模言語モデル(LLM)は生物医学的NLPにおいて高い性能を示したが、高い意思決定支援に不可欠な構造的推論能力は欠如していることが多い。
我々は,MSK-CHORDデータセットを用いて,自己回帰型LLMと結果予測のための臨床推論を整合させる,統一型マルチタスク学習フレームワークを提案する。
我々のモデルは、連立生存率分類、継続生存時間回帰、自然言語合理生成を共同で行うように訓練されている。
我々は,(1)標準教師付き微調整(SFT),(2)ステップバイステップの推論を促すためのCoT(Chain-of-Thought)を用いたSFT,(3)モデル出力を専門家由来の推論軌道に整合させる強化学習手法GRPO(Group Relative Policy Optimization)の3つのアライメント戦略を評価する。
LLaMa3-8BとMed42-8Bのバックボーンによる実験では、CoTのプロンプトがF1を+6.0改善し、MAEを12%削減し、GRPOはBLEU、ROUGE、BERTScoreをまたいだ最先端の解釈性と予測性能を達成した。
さらに,既存のバイオメディカルLSMでは,アーキテクチャ上の制約により,妥当な推論トレースが得られないことも示している。
本研究は,マルチタスク臨床モデリングにおける推論認識アライメントの重要性を強調し,精度オンコロジーにおける解釈可能で信頼性の高いLCMの新たなベンチマークを設定した。
関連論文リスト
- CANDLE: A Cross-Modal Agentic Knowledge Distillation Framework for Interpretable Sarcopenia Diagnosis [3.0245458192729466]
CANDLEは、解釈可能性と性能のトレードオフを緩和し、予測精度を高め、高い決定一貫性を維持する。
このフレームワークは、TMLモデルの知識アセット化に対するスケーラブルなアプローチを提供し、サルコピアおよび潜在的に広い医療領域における解釈可能、再現可能、および臨床的に整合した意思決定支援を可能にする。
論文 参考訳(メタデータ) (2025-07-26T15:50:08Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - ClinicRealm: Re-evaluating Large Language Models with Conventional Machine Learning for Non-Generative Clinical Prediction Tasks [37.544994716002016]
LLM(Large Language Models)は、医学においてますます普及している。
しかし, 臨床診断における有用性は未評価のままである。
本研究は,15のGPTスタイルのLCM,5つのBERTスタイルのモデル,11の従来手法をベンチマークすることによって,この問題に対処する。
論文 参考訳(メタデータ) (2024-07-26T06:09:10Z) - XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare [16.79952669254101]
本稿では,大規模言語モデルによる構造化された臨床データ処理を実現するための知識誘導型インコンテキスト学習フレームワークを提案する。
このアプローチでは、ドメイン固有の機能グループ化、慎重にバランスのとれた数ショットの例、タスク固有のプロンプト戦略を統合する。
論文 参考訳(メタデータ) (2024-05-10T06:52:44Z) - Beyond Self-Consistency: Ensemble Reasoning Boosts Consistency and Accuracy of LLMs in Cancer Staging [0.33554367023486936]
がんのステージング状態は臨床報告で確認できるが、抽出するには自然言語処理が必要である。
臨床指向の大規模言語モデルの進歩により、アルゴリズムの訓練に多大な努力を払わずに、そのような状態を抽出することが期待されている。
本研究では,モデル生成の一貫性向上を目的としたアンサンブル推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T19:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。