Fugu-MT 論文翻訳(概要): m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models

論文の概要: m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models

arxiv url: http://arxiv.org/abs/2504.00869v1
Date: Tue, 01 Apr 2025 14:57:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 15:43:09.151912
Title: m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models
Title（参考訳）: m1: 大規模言語モデルを用いた医療推論におけるテスト時間スケーリングの可能性
Authors: Xiaoke Huang, Juncheng Wu, Hui Liu, Xianfeng Tang, Yuyin Zhou,
Abstract要約: 本研究は,医学的推論のためのテストタイムスケーリングとm1の総合的な研究である。各種医療タスクに対する評価は,テストタイムのスケーリングが医学的推論を継続的に促進することを示す。データスケールの増加,データ品質の向上,モデル能力の拡大により,医療知識の基盤化が一貫して進んでいることが判明した。
参考スコア（独自算出の注目度）: 21.849783391186754
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Test-time scaling has emerged as a powerful technique for enhancing the reasoning capabilities of large language models. However, its effectiveness in medical reasoning remains uncertain, as the medical domain fundamentally differs from mathematical tasks in terms of knowledge representation and decision-making processes. In this paper, we provide the first comprehensive investigation of test-time scaling for medical reasoning and present m1, a simple yet effective approach that increases a model's medical reasoning capability at inference. Our evaluation across diverse medical tasks demonstrates that test-time scaling consistently enhances medical reasoning, enabling lightweight fine-tuned models under 10B parameters to establish new state-of-the-art performance, while our 32B model rivals previous 70B-scale medical LLMs. However, we identify an optimal reasoning token budget of approximately 4K, beyond which performance may degrade due to overthinking. Budget forcing, which extends test-time computation through iterative prompts, helps models double-check answers but does not necessarily improve the overall medical QA performance and, in some cases, even introduces errors into previously correct responses. Our case-by-case analysis identifies insufficient medical knowledge as a key bottleneck that prevents further performance gains through test-time scaling. We find that increasing data scale, improving data quality, and expanding model capacity consistently enhance medical knowledge grounding, enabling continued performance improvements, particularly on challenging medical benchmarks where smaller models reach saturation. These findings underscore fundamental differences between medical and mathematical reasoning in LLMs, highlighting that enriched medical knowledge, other than increased reasoning depth alone, is essential for realizing the benefits of test-time scaling.
Abstract（参考訳）: テストタイムスケーリングは、大規模言語モデルの推論能力を高めるための強力なテクニックとして登場した。しかし、医学領域は、知識表現や意思決定プロセスの点で数学的タスクと根本的に異なるため、医学推論におけるその有効性は依然として不明である。本稿では,医学的推論のためのテストタイムスケーリングに関する最初の包括的調査と,推論におけるモデルの医学的推論能力を高めるシンプルな,効果的なアプローチであるm1について述べる。各種医療タスクに対する評価は,テストタイムスケーリングが医学的推論を継続的に強化し,10Bパラメータ未満の軽量微調整モデルによる新たな最先端性能の確立を可能にすることを示し,我々の32Bモデルは以前の70Bスケール医療LLMと競合することを示した。しかし, 最適推論トークン予算は約4Kであり, 過度に考えると性能が低下する可能性がある。反復的なプロンプトを通じてテスト時間計算を拡張する予算強制は、二重チェックの回答モデルを支援するが、必ずしも医療QAパフォーマンスを改善せず、場合によっては、以前正しい応答にエラーを導入することもある。ケースバイケース分析では,テストタイムスケーリングによるさらなるパフォーマンス向上を防ぐ重要なボトルネックとして,不十分な医療知識が認識されている。データスケールの増大、データ品質の向上、モデル能力の拡大は、医療知識の基盤化を継続的に強化し、特に小さなモデルが飽和状態に達するような困難な医療ベンチマークにおいて、継続的なパフォーマンス向上を可能にしている。これらの知見は, LLMにおける医学的推論と数学的推論の根本的な相違を明らかにし, 医学的知識の充実が, テストタイムスケーリングのメリットの実現に不可欠であることを強調した。

関連論文リスト

Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。本稿は、この新興分野に関する最初の体系的なレビューを提供する。本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文参考訳（メタデータ） (2025-08-01T14:41:31Z)
GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning [50.94508930739623]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
論文参考訳（メタデータ） (2025-06-22T08:09:58Z)
Disentangling Reasoning and Knowledge in Medical Large Language Models [23.401484250342158]
大きな言語モデルにおける医学的推論は、臨床医の診断的思考をエミュレートすることを目的としている。 MedQA-USMLE、MedMCQA、PubMedQAといった現在のベンチマークでは、推論と事実のリコールが混在していることが多い。バイオメディカルモデル(HuatuoGPT-o1, MedReason, m1)と一般ドメインモデル(DeepSeek-R1, o4-mini, Qwen3)を評価する。我々は、推論重大例に基づいて微調整と強化学習を用いてBioMed-R1を訓練する。
論文参考訳（メタデータ） (2025-05-16T17:16:27Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning [27.827761004918106]
この研究は、医学的推論タスクのための大規模言語モデル(LLM)における推論時間スケーリングの可能性を探るものである。 500サンプルを適度にトレーニングすることで,本モデルでは6%-11%の性能向上を実現した。
論文参考訳（メタデータ） (2025-01-11T07:10:23Z)
LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文参考訳（メタデータ） (2024-12-31T19:55:45Z)
Superhuman performance of a large language model on the reasoning tasks of a physician [10.043418251604624]
医療タスクにおける大規模言語モデル(LLM)の性能は、伝統的に複数の選択質問ベンチマークを用いて評価されてきた。我々はOpenAIのo1-previewモデルを評価する。これは、応答を生成する前に、思考プロセスの連鎖を介して実行時間を向上させるために開発されたモデルである。
論文参考訳（メタデータ） (2024-12-14T14:46:18Z)
Towards Next-Generation Medical Agent: How o1 is Reshaping Decision-Making in Medical Scenarios [46.729092855387165]
本稿では,医療用AIエージェントのバックボーンLSMの選択について検討する。我々の研究結果は、o1の診断精度と一貫性を高める能力を示し、よりスマートでより応答性の高いAIツールへの道を開いた。
論文参考訳（メタデータ） (2024-11-16T18:19:53Z)
Explainable Diagnosis Prediction through Neuro-Symbolic Integration [11.842565087408449]
我々は、診断予測のための説明可能なモデルを開発するために、神経象徴的手法、特に論理ニューラルネットワーク(LNN)を用いている。私たちのモデル、特に$M_textmulti-pathway$と$M_textcomprehensive$は、従来のモデルよりも優れたパフォーマンスを示します。これらの知見は、医療AI応用における精度と説明可能性のギャップを埋める神経象徴的アプローチの可能性を強調している。
論文参考訳（メタデータ） (2024-10-01T22:47:24Z)
Unified Uncertainty Estimation for Cognitive Diagnosis Models [70.46998436898205]
本稿では,幅広い認知診断モデルに対する統一的不確実性推定手法を提案する。診断パラメータの不確かさをデータ・アスペクトとモデル・アスペクトに分解する。本手法は有効であり,認知診断の不確実性に関する有用な知見を提供することができる。
論文参考訳（メタデータ） (2024-03-09T13:48:20Z)
Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models [73.79091519226026]
Uncertainty of Thoughts (UoT) は、大きな言語モデルを拡張するアルゴリズムであり、効果的な質問をすることで積極的に情報を求めることができる。医療診断、トラブルシューティング、および20の質問ゲームに関する実験において、UoTは、タスク完了の成功率において平均38.1%のパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2024-02-05T18:28:44Z)
Robust and Interpretable Medical Image Classifiers via Concept Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文参考訳（メタデータ） (2023-10-04T21:57:09Z)
On the Robustness of Pretraining and Self-Supervision for a Deep Learning-based Analysis of Diabetic Retinopathy [70.71457102672545]
糖尿病網膜症における訓練方法の違いによる影響を比較検討した。本稿では,定量的性能,学習した特徴表現の統計,解釈可能性,画像歪みに対する頑健性など,さまざまな側面について検討する。以上の結果から,ImageNet事前学習モデルでは,画像歪みに対する性能,一般化,堅牢性が著しく向上していることが示唆された。
論文参考訳（メタデータ） (2021-06-25T08:32:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。