論文の概要: Clinical Reasoning AI for Oncology Treatment Planning: A Multi-Specialty Case-Based Evaluation
- arxiv url: http://arxiv.org/abs/2604.20869v1
- Date: Fri, 27 Mar 2026 00:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.131926
- Title: Clinical Reasoning AI for Oncology Treatment Planning: A Multi-Specialty Case-Based Evaluation
- Title(参考訳): 腫瘍治療計画のための臨床推論AI:多分野のケースベース評価
- Authors: Philippe E. Spiess, Md Muntasir Zitu, Alison Walker, Daniel A. Anaya, Robert M. Wenham, Michael Vogelbaum, Daniel Grass, Ali-Musa Jaffer, Amod Sarnaik, Caitlin McMullen, Christine Sam, John V. Kiluk, Tianshi Liu, Tiago Biachi, Julio Powsang, Jing-Yi Chern, Roger Li, Seth Felder, Samuel Reynolds, Michael Shafique, Alison Sheehan, Ashley Layman, Cydney A. Warfield, Derrick Legoas, Jaclyn Parrinello, Jena Schmitz, Kevin Eaton, Mark Honor, Luis Felipe, Issam ElNaqa, Elier Delgado, Talia Berler, Rachael V. Phillips, Frantz Francisque, Carlos Garcia Fernandez, Gilmer Valdes,
- Abstract要約: アメリカのがん治療の80%以上が地域社会で行われている。
臨床医はゲノム学、ステージング、病理学、ガイドラインの変更を統合し、認知的負担を生み出す必要がある。
腫瘍治療計画作成のためのAI臨床推論プラットフォームであるOncoBrainについて検討した。
- 参考スコア(独自算出の注目度): 0.7695487047291749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: More than 80% of U.S. cancer care is delivered in community settings, where survival remains worse than at academic centers. Clinicians must integrate genomics, staging, radiology, pathology, and changing guidelines, creating cognitive burden. We evaluated OncoBrain, an AI clinical reasoning platform for oncology treatment-plan generation, as an early step toward OGI. Methods: OncoBrain combines general-purpose LLMs with a cancer-specific graph retrieval-augmented generation layer, a gold-standard treatment-plan corpus as long-term memory, and a model-agnostic safety layer (CHECK) for hallucination detection and suppression. We evaluated clinician-enriched case summaries across gynecologic, genitourinary, neuro-oncology, gastrointestinal/hepatobiliary, and hematologic malignancies. Three clinician groups completed structured evaluations of 173 cases using a common 16-item instrument: subspecialist oncologists reviewed 50 cases, physician reviewers 78, and advanced practice providers 45. Results: Ratings were highest for scientific accuracy, evidence support, and safety, with lower but favorable scores for workflow integration and time savings. On a 5-point scale, mean alignment with evidence and guidelines was 4.60, 4.56, and 4.70 across subspecialists, physician reviewers, and advanced practice providers. Mean scores for absence of safety or misinformation concerns were 4.80, 4.40, and 4.60. Workflow integration averaged 4.50, 3.94, and 4.00; perceived time savings averaged 5.00, 3.89, and 3.60. Conclusions: In this multi-specialty vignette-based evaluation, OncoBrain generated oncology treatment plans judged guideline-concordant, clinically acceptable, and easy to supervise. These findings support the potential of a carefully engineered AI reasoning platform to assist oncology treatment planning and justify prospective real-world evaluation in community settings.
- Abstract(参考訳): 背景:アメリカのがん治療の80%以上が地域社会で提供されており、そこでの生存は学術的なセンターよりも悪いままである。
臨床医はゲノム学、ステージング、放射線学、病理学、ガイドラインの変更を統合し、認知的負担を生み出す必要がある。
我々は,腫瘍治療計画作成のためのAI臨床推論プラットフォームであるOncoBrainを,OGIの早期段階として評価した。
方法: OncoBrain は、汎用 LLM と、がん特異的グラフ検索拡張生成層、長期記憶としての金標準治療計画コーパス、幻覚検出および抑制のためのモデル認識安全層(CHECK)を結合する。
婦人科, 性器科, 神経腫瘍学, 消化器・肝胆道癌, 血液悪性腫瘍を対象とし, 臨床検診を行った。
3つの臨床グループが16石計を用いた173症例の構造的評価を完了した。
結果: 評価は科学的正確性,エビデンスサポート,安全性が最も高く,ワークフロー統合や時間節約のスコアは低いが望ましい。
5点の尺度では、エビデンスとガイドラインとの整合性が4.60、4.56、および4.70であった。
安全性や誤情報がない場合の平均スコアは4.80、4.40、および4.60である。
ワークフロー統合の平均は4.50、3.94、そして4.00であり、平均は5.00、3.89、および3.60である。
結論: この多種性ヴィグネットによる評価において, OncoBrainは, ガイドラインに適合し, 臨床的に許容され, 監視が容易な腫瘍治療計画を作成した。
これらの発見は、オンコロジー治療計画を支援し、コミュニティ設定における将来的な実世界評価を正当化する、慎重に設計されたAI推論プラットフォームの可能性を支持する。
関連論文リスト
- Case-Specific Rubrics for Clinical AI Evaluation: Methodology, Validation, and LLM-Clinician Agreement Across 823 Encounters [3.018184429993625]
スコアリングインスタンス毎のエキスパートレビューを必要とするメソッドは、安全で反復的なデプロイメントには遅すぎるし、コストも高くつく。
20人の臨床医が、プライマリケア、精神医学、腫瘍学、行動保健の823の患者に1,646個のルーブリックを作成した。
ケース固有のルーリックは、専門家の判断を維持しながら3桁のコストで自動化を可能にする、臨床AI評価のためのパスを提供する。
論文 参考訳(メタデータ) (2026-04-27T17:17:56Z) - PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - Clinical Validation of Medical-based Large Language Model Chatbots on Ophthalmic Patient Queries with LLM-based Evaluation [1.6570903210287165]
ドメイン固有の大きな言語モデルは、眼科における患者教育、トリアージ、臨床決定を支援するために、ますます使われてきている。
本研究は,眼科関連患者の質問に対する回答として,Meerkat-7B,BioMistral-7B,OpenBioLLM-8B,MedLLaMA3-v20の4つの小症例について検討した。
全体として、LLMは安全な眼科的質問応答の可能性を示したが、そのギャップは臨床深度とコンセンサスに留まった。
論文 参考訳(メタデータ) (2026-02-05T07:00:20Z) - Evolving Diagnostic Agents in a Virtual Clinical Environment [75.59389103511559]
本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練するためのフレームワークを提案する。
本手法は対話型探索と結果に基づくフィードバックによって診断戦略を取得する。
DiagAgentはDeepSeek-v3やGPT-4oなど、最先端の10のLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-10-28T17:19:47Z) - Cancer Diagnosis Categorization in Electronic Health Records Using Large Language Models and BioBERT: Model Performance Evaluation Study [0.1625256372381793]
がん患者3456例のICD (International Classification of Diseases, 436free-text entrys) について, 762例の診断を行った。
モデルは、診断を14の既定のカテゴリに分類する能力で試験された。
GPT-3.5、Gemini、Llamaは両方のフォーマットで全体的なパフォーマンスを低下させた。
論文 参考訳(メタデータ) (2025-10-08T16:50:40Z) - Beyond Diagnosis: Evaluating Multimodal LLMs for Pathology Localization in Chest Radiographs [33.80781505782195]
胸部X線写真における病理像の局所化能力について,2つの汎用大言語モデル (LLM) とドメイン固有モデル (MedGemma) を評価した。
GPT-5は49.7%、GPT-4(39.1%)とMedGemma(17.7%)の順で、いずれもタスク固有のCNNベースライン(59.9%)と放射線学ベンチマーク(80.1%)より低い。
GPT-4は, 解剖学的位置が固定された病理では良好に機能したが, 空間的変化に悩まされ, より頻度の低い予測が得られた。
論文 参考訳(メタデータ) (2025-09-22T16:54:23Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。
また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文 参考訳(メタデータ) (2024-12-12T18:20:16Z) - LEME: Open Large Language Models for Ophthalmology with Advanced Reasoning and Clinical Validation [29.913581347375256]
大規模言語モデル(LLM)は、ドキュメントの作業量を削減し、臨床的な意思決定をサポートする、有望なパスを提供する。
本稿では,2段階プロセスで開発したオープンウェイトLLMのスイートであるLEMEについて述べる。
LEMEは、患者QA、相談、治療計画などのタスクにまたがる5つのゼロショットベンチマークで評価された。
論文 参考訳(メタデータ) (2024-10-01T02:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。