論文の概要: O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning
- arxiv url: http://arxiv.org/abs/2501.06458v1
- Date: Sat, 11 Jan 2025 07:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:26:06.635608
- Title: O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning
- Title(参考訳): O1 Replication Journey -- Part 3: 医療推論のための推論時間スケーリング
- Authors: Zhongzhen Huang, Gui Geng, Shengyi Hua, Zhen Huang, Haoyang Zou, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang,
- Abstract要約: この研究は、医学的推論タスクのための大規模言語モデル(LLM)における推論時間スケーリングの可能性を探るものである。
500サンプルを適度にトレーニングすることで,本モデルでは6%-11%の性能向上を実現した。
- 参考スコア(独自算出の注目度): 27.827761004918106
- License:
- Abstract: Building upon our previous investigations of O1 replication (Part 1: Journey Learning [Qin et al., 2024] and Part 2: Distillation [Huang et al., 2024]), this work explores the potential of inference-time scaling in large language models (LLMs) for medical reasoning tasks, ranging from diagnostic decision-making to treatment planning. Through extensive experiments on medical benchmarks of varying complexity (MedQA, Medbullets, and JAMA Clinical Challenges), our investigation reveals several key insights: (1) Increasing inference time does lead to improved performance. With a modest training set of 500 samples, our model yields substantial performance improvements of 6%-11%. (2) Task complexity directly correlates with the required length of reasoning chains, confirming the necessity of extended thought processes for challenging problems. (3) The differential diagnoses generated by our model adhere to the principles of the hypothetico-deductive method, producing a list of potential conditions that may explain a patient's symptoms and systematically narrowing these possibilities by evaluating the evidence. These findings demonstrate the promising synergy between inference-time scaling and journey learning in advancing LLMs' real-world clinical reasoning capabilities.
- Abstract(参考訳): O1複製に関するこれまでの調査(Part 1: Journey Learning [Qin et al , 2024] と Part 2: Distillation [Huang et al , 2024])に基づいて、診断決定から治療計画まで、医学的推論タスクのための大規模言語モデル(LLM)における推論時間スケーリングの可能性を探る。
様々な複雑さ(MedQA,Medbullets,JAMA)の医学的ベンチマーク(MedQA,Medbullets,JAMA)を広範囲に検討した結果,(1)推論時間の増加はパフォーマンスの向上につながるという重要な知見が得られた。
500サンプルを適度にトレーニングすることで,本モデルでは6%-11%の性能向上を実現した。
2)課題の複雑さは,要求される推論チェーンの長さと直接相関し,課題解決のための拡張思考プロセスの必要性を確認する。
3) 本モデルによる鑑別診断は, 仮説導出法の原則に従属し, 患者の症状を説明できる可能性の一覧を作成し, 証拠を評価することによってこれらの可能性を体系的に狭めている。
これらの結果から,LLMの現実的臨床推論能力向上における推論時間スケーリングと旅行学習の相乗効果が示唆された。
関連論文リスト
- Optimizing Skin Lesion Classification via Multimodal Data and Auxiliary
Task Integration [54.76511683427566]
本研究は, スマートフォンで撮影した画像と本質的な臨床および人口統計情報を統合することで, 皮膚病変を分類する新しいマルチモーダル手法を提案する。
この手法の特徴は、超高解像度画像予測に焦点を当てた補助的なタスクの統合である。
PAD-UFES20データセットを用いて,様々なディープラーニングアーキテクチャを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-16T05:16:20Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - Mortality Prediction with Adaptive Feature Importance Recalibration for
Peritoneal Dialysis Patients: a deep-learning-based study on a real-world
longitudinal follow-up dataset [19.7915762858399]
終末期腎疾患(ESRD)に対する腹膜透析(PD)は最も広く用いられている生命維持療法の1つである
本稿では,リアルタイム,個別化,解釈可能な死亡予測モデル - AICare のためのディープラーニングモデルを開発することを目的とする。
本研究は656 PD患者13,091 人の臨床経過と人口統計データを収集した。
論文 参考訳(メタデータ) (2023-01-17T13:17:54Z) - Learning Spatio-Temporal Model of Disease Progression with NeuralODEs
from Longitudinal Volumetric Data [4.998875488622879]
我々は,1つの医療スキャンを処理し,加齢関連疾患の進化をモデル化する深層学習手法を開発した。
ジオグラフィック・アトロフィーの場合,提案手法はアトロフィ成長予測において,関連するベースラインモデルよりも優れていた。
アルツハイマー病に対して, 提案法は, 疾患によって引き起こされる脳の心室変化を予測する上で, 顕著な性能を示した。
論文 参考訳(メタデータ) (2022-11-08T13:28:26Z) - Modelling Patient Trajectories Using Multimodal Information [0.0]
本稿では,異なる種類の情報を組み合わせて臨床データの時間的側面を考慮した患者軌跡のモデル化手法を提案する。
本手法は, 予期せぬ患者寛解と疾患進行の2つの異なる臨床結果に基づいて検討した。
論文 参考訳(メタデータ) (2022-09-09T10:20:54Z) - Benchmarking Heterogeneous Treatment Effect Models through the Lens of
Interpretability [82.29775890542967]
治療のパーソナライズされた効果を見積もるのは複雑だが、普及している問題である。
ヘテロジニアス処理効果推定に関する機械学習文献の最近の進歩は、洗練されたが不透明なツールの多くを生み出した。
我々は、ポストホックな特徴重要度法を用いて、モデルの予測に影響を及ぼす特徴を特定する。
論文 参考訳(メタデータ) (2022-06-16T17:59:05Z) - DeepJoint: Robust Survival Modelling Under Clinical Presence Shift [2.9745607433320926]
本稿では,生存率と平行な3つの臨床的存在次元をモデル化したリカレントニューラルネットワークを提案する。
予測タスクでは、これらの3つのプロセスの明示的なモデリングにより、最先端の予測モデルと比較して性能が向上した。
論文 参考訳(メタデータ) (2022-05-26T16:42:38Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。