論文の概要: Exploring Efficiency Frontiers of Thinking Budget in Medical Reasoning: Scaling Laws between Computational Resources and Reasoning Quality
- arxiv url: http://arxiv.org/abs/2508.12140v1
- Date: Sat, 16 Aug 2025 19:25:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.58492
- Title: Exploring Efficiency Frontiers of Thinking Budget in Medical Reasoning: Scaling Laws between Computational Resources and Reasoning Quality
- Title(参考訳): 医療推論における予算編成の効率化のフロンティアを探る:計算資源と推論品質のスケーリング法則
- Authors: Ziqian Bi, Lu Chen, Junhao Song, Hongying Luo, Enze Ge, Junmin Huang, Tianyang Wang, Keyu Chen, Chia Xin Liang, Zihan Wei, Huafeng Liu, Chunjie Tian, Jibin Guan, Joe Yeong, Yongzhi Xu, Peng Wang, Junfeng Hao,
- Abstract要約: 本研究は,医学的推論タスクにおける思考予算機構の包括的評価である。
Qwen3とDeepSeek-R1の2つの主要なモデルファミリーを、様々な専門性や難易度にまたがる15の医療データセットで評価した。
- 参考スコア(独自算出の注目度): 11.743970673134573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents the first comprehensive evaluation of thinking budget mechanisms in medical reasoning tasks, revealing fundamental scaling laws between computational resources and reasoning quality. We systematically evaluated two major model families, Qwen3 (1.7B to 235B parameters) and DeepSeek-R1 (1.5B to 70B parameters), across 15 medical datasets spanning diverse specialties and difficulty levels. Through controlled experiments with thinking budgets ranging from zero to unlimited tokens, we establish logarithmic scaling relationships where accuracy improvements follow a predictable pattern with both thinking budget and model size. Our findings identify three distinct efficiency regimes: high-efficiency (0 to 256 tokens) suitable for real-time applications, balanced (256 to 512 tokens) offering optimal cost-performance tradeoffs for routine clinical support, and high-accuracy (above 512 tokens) justified only for critical diagnostic tasks. Notably, smaller models demonstrate disproportionately larger benefits from extended thinking, with 15 to 20% improvements compared to 5 to 10% for larger models, suggesting a complementary relationship where thinking budget provides greater relative benefits for capacity-constrained models. Domain-specific patterns emerge clearly, with neurology and gastroenterology requiring significantly deeper reasoning processes than cardiovascular or respiratory medicine. The consistency between Qwen3 native thinking budget API and our proposed truncation method for DeepSeek-R1 validates the generalizability of thinking budget concepts across architectures. These results establish thinking budget control as a critical mechanism for optimizing medical AI systems, enabling dynamic resource allocation aligned with clinical needs while maintaining the transparency essential for healthcare deployment.
- Abstract(参考訳): 本研究では,計算資源と推論品質の基本的なスケーリング法則を明らかにするとともに,医療推論タスクにおける思考予算機構の総合的な評価を行った。
Qwen3 (1.7Bから235Bのパラメータ) とDeepSeek-R1 (1.5Bから70Bのパラメータ) の2つの主要なモデルファミリーを, 多様な専門性と難易度にまたがる15の医療データセットで体系的に評価した。
ゼロから無限のトークンを含む思考予算を用いた制御実験を通じて、精度改善が思考予算とモデルサイズの両方で予測可能なパターンに従う対数スケーリング関係を確立する。
本研究は, リアルタイムアプリケーションに適した高効率(0~256トークン), バランス(256~512トークン), 定期的な臨床支援に最適なコストパフォーマンストレードオフを提供する高効率(512トークン以上), 重要な診断タスクにのみ正当化された高精度(512トークン以上)の3つの異なる効率体制を明らかにした。
特に、より小さなモデルでは、大きなモデルでは5~10%よりも15~20%改善され、キャパシティに制約されたモデルでは、思考予算がより大きな相対的利益をもたらすという相補的な関係が示唆される。
ドメイン固有のパターンは明らかに現れ、神経学と胃腸科学は心臓血管や呼吸器医学よりもはるかに深い推論プロセスを必要とする。
Qwen3ネイティブな思考予算APIとDeepSeek-R1のためのトラクション手法との整合性は、アーキテクチャ全体にわたる思考予算概念の一般化可能性を検証する。
これらの結果は、医療AIシステムを最適化するための重要なメカニズムとして予算管理を確立し、医療展開に不可欠な透明性を維持しつつ、臨床ニーズに沿った動的リソース割り当てを可能にする。
関連論文リスト
- Med-R$^3$: Enhancing Medical Retrieval-Augmented Reasoning of LLMs via Progressive Reinforcement Learning [31.58210903685538]
本稿では、**Med-R$3$*, a*Med*ical **R**etrieval-augmented **R**easoning framework driven by Progress **R**einforcement learningを紹介する。
本稿ではまず,医学的問題に対する論理的推論を行うモデルの開発を行う。
次に,知識コーパスの特性と外部情報の利用性に適合するように,検索機能を適応的に最適化する。
論文 参考訳(メタデータ) (2025-07-31T13:31:01Z) - Hierarchical Budget Policy Optimization for Adaptive Reasoning [49.621779447691665]
階層的予算政策最適化(Hierarchical Budget Policy Optimization, HBPO)は、モデルが問題固有の推論深度を犠牲にすることなく学習できる強化学習フレームワークである。
HBPOは、探索空間を予算制約付き階層(512-2560トークン)に分割する。
大規模な実験により、HBPOは平均トークン使用量を最大60.6%削減し、4つの推論ベンチマークで精度を3.14%改善した。
論文 参考訳(メタデータ) (2025-07-21T17:52:34Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Primary Care Diagnoses as a Reliable Predictor for Orthopedic Surgical Interventions [0.10624941710159722]
リファラルワークフローの非効率性は、最適な患者と高い医療費に寄与する。
本研究では,プライマリケアの診断項目に基づく手続き的ニーズの予測の可能性について検討した。
論文 参考訳(メタデータ) (2025-02-06T17:15:12Z) - Building predictive models of healthcare costs with open healthcare data [0.0]
本稿では,機械学習技術を用いた予測モデル開発手法を提案する。
我々は2016年に230万件の患者データを分析した。
私たちは、患者の診断と人口統計からコストを予測するモデルを構築しました。
論文 参考訳(メタデータ) (2023-04-05T02:12:58Z) - An Efficient Approach for Optimizing the Cost-effective Individualized
Treatment Rule Using Conditional Random Forest [5.406112598028401]
我々は、NMB(net-monetary-benefit)という概念を用いて、健康上の利益と関連するコストのトレードオフを評価する。
NMBに基づく分類アルゴリズムを用いて最適なCE-ITRを同定する。
我々は、NIHが出資したSystolic Blood Pressure Intervention Trialにトップパフォーマンスのアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-04-23T01:36:24Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z) - Resource Planning for Hospitals Under Special Consideration of the
COVID-19 Pandemic: Optimization and Sensitivity Analysis [87.31348761201716]
新型コロナウイルス(covid-19)パンデミックのような危機は、医療機関にとって深刻な課題となる。
BaBSim.Hospitalは離散イベントシミュレーションに基づく容量計画ツールである。
BaBSim.Hospitalを改善するためにこれらのパラメータを調査し最適化することを目指しています。
論文 参考訳(メタデータ) (2021-05-16T12:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。