論文の概要: m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models
- arxiv url: http://arxiv.org/abs/2504.00869v1
- Date: Tue, 01 Apr 2025 14:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:25:07.266846
- Title: m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models
- Title(参考訳): m1: 大規模言語モデルを用いた医療推論におけるテスト時間スケーリングの可能性
- Authors: Xiaoke Huang, Juncheng Wu, Hui Liu, Xianfeng Tang, Yuyin Zhou,
- Abstract要約: 本研究は,医学的推論のためのテストタイムスケーリングとm1の総合的な研究である。
各種医療タスクに対する評価は,テストタイムのスケーリングが医学的推論を継続的に促進することを示す。
データスケールの増加,データ品質の向上,モデル能力の拡大により,医療知識の基盤化が一貫して進んでいることが判明した。
- 参考スコア(独自算出の注目度): 21.849783391186754
- License:
- Abstract: Test-time scaling has emerged as a powerful technique for enhancing the reasoning capabilities of large language models. However, its effectiveness in medical reasoning remains uncertain, as the medical domain fundamentally differs from mathematical tasks in terms of knowledge representation and decision-making processes. In this paper, we provide the first comprehensive investigation of test-time scaling for medical reasoning and present m1, a simple yet effective approach that increases a model's medical reasoning capability at inference. Our evaluation across diverse medical tasks demonstrates that test-time scaling consistently enhances medical reasoning, enabling lightweight fine-tuned models under 10B parameters to establish new state-of-the-art performance, while our 32B model rivals previous 70B-scale medical LLMs. However, we identify an optimal reasoning token budget of approximately 4K, beyond which performance may degrade due to overthinking. Budget forcing, which extends test-time computation through iterative prompts, helps models double-check answers but does not necessarily improve the overall medical QA performance and, in some cases, even introduces errors into previously correct responses. Our case-by-case analysis identifies insufficient medical knowledge as a key bottleneck that prevents further performance gains through test-time scaling. We find that increasing data scale, improving data quality, and expanding model capacity consistently enhance medical knowledge grounding, enabling continued performance improvements, particularly on challenging medical benchmarks where smaller models reach saturation. These findings underscore fundamental differences between medical and mathematical reasoning in LLMs, highlighting that enriched medical knowledge, other than increased reasoning depth alone, is essential for realizing the benefits of test-time scaling.
- Abstract(参考訳): テストタイムスケーリングは、大規模言語モデルの推論能力を高めるための強力なテクニックとして登場した。
しかし、医学領域は、知識表現や意思決定プロセスの点で数学的タスクと根本的に異なるため、医学推論におけるその有効性は依然として不明である。
本稿では,医学的推論のためのテストタイムスケーリングに関する最初の包括的調査と,推論におけるモデルの医学的推論能力を高めるシンプルな,効果的なアプローチであるm1について述べる。
各種医療タスクに対する評価は,テストタイムスケーリングが医学的推論を継続的に強化し,10Bパラメータ未満の軽量微調整モデルによる新たな最先端性能の確立を可能にすることを示し,我々の32Bモデルは以前の70Bスケール医療LLMと競合することを示した。
しかし, 最適推論トークン予算は約4Kであり, 過度に考えると性能が低下する可能性がある。
反復的なプロンプトを通じてテスト時間計算を拡張する予算強制は、二重チェックの回答モデルを支援するが、必ずしも医療QAパフォーマンスを改善せず、場合によっては、以前正しい応答にエラーを導入することもある。
ケースバイケース分析では,テストタイムスケーリングによるさらなるパフォーマンス向上を防ぐ重要なボトルネックとして,不十分な医療知識が認識されている。
データスケールの増大、データ品質の向上、モデル能力の拡大は、医療知識の基盤化を継続的に強化し、特に小さなモデルが飽和状態に達するような困難な医療ベンチマークにおいて、継続的なパフォーマンス向上を可能にしている。
これらの知見は, LLMにおける医学的推論と数学的推論の根本的な相違を明らかにし, 医学的知識の充実が, テストタイムスケーリングのメリットの実現に不可欠であることを強調した。
関連論文リスト
- O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning [27.827761004918106]
この研究は、医学的推論タスクのための大規模言語モデル(LLM)における推論時間スケーリングの可能性を探るものである。
500サンプルを適度にトレーニングすることで,本モデルでは6%-11%の性能向上を実現した。
論文 参考訳(メタデータ) (2025-01-11T07:10:23Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - Superhuman performance of a large language model on the reasoning tasks of a physician [10.043418251604624]
医療タスクにおける大規模言語モデル(LLM)の性能は、伝統的に複数の選択質問ベンチマークを用いて評価されてきた。
我々はOpenAIのo1-previewモデルを評価する。これは、応答を生成する前に、思考プロセスの連鎖を介して実行時間を向上させるために開発されたモデルである。
論文 参考訳(メタデータ) (2024-12-14T14:46:18Z) - Towards Next-Generation Medical Agent: How o1 is Reshaping Decision-Making in Medical Scenarios [46.729092855387165]
本稿では,医療用AIエージェントのバックボーンLSMの選択について検討する。
我々の研究結果は、o1の診断精度と一貫性を高める能力を示し、よりスマートでより応答性の高いAIツールへの道を開いた。
論文 参考訳(メタデータ) (2024-11-16T18:19:53Z) - Explainable Diagnosis Prediction through Neuro-Symbolic Integration [11.842565087408449]
我々は、診断予測のための説明可能なモデルを開発するために、神経象徴的手法、特に論理ニューラルネットワーク(LNN)を用いている。
私たちのモデル、特に$M_textmulti-pathway$と$M_textcomprehensive$は、従来のモデルよりも優れたパフォーマンスを示します。
これらの知見は、医療AI応用における精度と説明可能性のギャップを埋める神経象徴的アプローチの可能性を強調している。
論文 参考訳(メタデータ) (2024-10-01T22:47:24Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Unified Uncertainty Estimation for Cognitive Diagnosis Models [70.46998436898205]
本稿では,幅広い認知診断モデルに対する統一的不確実性推定手法を提案する。
診断パラメータの不確かさをデータ・アスペクトとモデル・アスペクトに分解する。
本手法は有効であり,認知診断の不確実性に関する有用な知見を提供することができる。
論文 参考訳(メタデータ) (2024-03-09T13:48:20Z) - Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models [73.79091519226026]
Uncertainty of Thoughts (UoT) は、大きな言語モデルを拡張するアルゴリズムであり、効果的な質問をすることで積極的に情報を求めることができる。
医療診断、トラブルシューティング、および20の質問ゲームに関する実験において、UoTは、タスク完了の成功率において平均38.1%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-02-05T18:28:44Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - On the Robustness of Pretraining and Self-Supervision for a Deep
Learning-based Analysis of Diabetic Retinopathy [70.71457102672545]
糖尿病網膜症における訓練方法の違いによる影響を比較検討した。
本稿では,定量的性能,学習した特徴表現の統計,解釈可能性,画像歪みに対する頑健性など,さまざまな側面について検討する。
以上の結果から,ImageNet事前学習モデルでは,画像歪みに対する性能,一般化,堅牢性が著しく向上していることが示唆された。
論文 参考訳(メタデータ) (2021-06-25T08:32:45Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。