論文の概要: AdaThink-Med: Medical Adaptive Thinking with Uncertainty-Guided Length Calibration
- arxiv url: http://arxiv.org/abs/2509.24560v1
- Date: Mon, 29 Sep 2025 10:13:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.917328
- Title: AdaThink-Med: Medical Adaptive Thinking with Uncertainty-Guided Length Calibration
- Title(参考訳): AdaThink-Med:不確実性ガイド長校正による医学的適応的思考
- Authors: Shaohao Rui, Kaitao Chen, Weijie Ma, Xiaosong Wang,
- Abstract要約: 本稿では,医療推論モデルにおける適応的思考能力の向上を目的としたエンドツーエンドフレームワークであるAdaThink-Medを提案する。
AdaThink-Med はまず各質問に対して複数の候補出力を生成し、各候補の正しさと不確実性を評価し、不確実性誘導長キャリブレーションモジュールを用いて問題を推定する。
6つの公開医療QAベンチマークでは、AdaThink-Medは最小限の劣化で性能を維持しながら平均6.4倍の長さの縮小を実現している。
- 参考スコア(独自算出の注目度): 4.33177021777927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in inference time scaling with extended long chain-of thought have significantly improved the reasoning capabilities of both general and medical large language models (LLMs). However, these models tend to engage in lengthy reasoning processes regardless of the difficulty of the input question, leading to increased inference costs in real-world applications. Therefore, enabling adaptive thinking where models think less for simpler questions and think more for complex ones is critical for the effective use of medical LLMs in practice. Despite its importance, there is a lack of end-to-end approaches designed to enhance the adaptive thinking capabilities of medical LLMs while providing a comprehensive examination of the trade-off between performance and computational cost. To bridge this gap, we propose AdaThink-Med, the first end-to-end framework designed to enhance adaptive thinking ability in medical reasoning models with uncertainty-guided length calibration. AdaThink-Med first generates multiple candidate outputs for each question, evaluates the correctness and uncertainty of each candidate, and then estimates problem difficulty via an uncertainty-guided length calibration module. For outputs with low difficulty and correct answers, the framework penalizes longer reasoning paths; whereas for those with high difficulty and incorrect answers, it encourages extending the chain of thought to explore alternative solutions. On six public medical QA benchmarks, AdaThink-Med achieves up to 6.4x length reduction on average while retaining performance with only minimal degradation. Intriguingly, we observe that AdaThink-Med spontaneously develops two distinct reasoning modes, which we characterize as "non-thinking" and "thinking", demonstrating the model's ability to suppress redundant reasoning processes dynamically.
- Abstract(参考訳): 長鎖思考による推論時間スケーリングの最近の進歩は、一般および医療用大言語モデル(LLM)の推論能力を大幅に向上させた。
しかし、これらのモデルは入力問題の難しさに関わらず、長い推論プロセスに携わる傾向にあり、現実のアプリケーションでは推論コストが増大する。
したがって、モデルがより単純な質問に対して考えることが少なく、複雑な質問に対して考えることの少ない適応的思考を可能にすることは、実際に医療用LLMを効果的に活用するために重要である。
その重要性にもかかわらず、医療用LCMの適応的思考能力を高めるために設計されたエンドツーエンドのアプローチは欠如しており、性能と計算コストのトレードオフを包括的に検証している。
このギャップを埋めるために,不確実な長さ校正を含む医学推論モデルにおける適応的思考能力を高めるために設計された,最初のエンドツーエンドフレームワークであるAdaThink-Medを提案する。
AdaThink-Med はまず各質問に対して複数の候補出力を生成し、各候補の正しさと不確実性を評価し、不確実性誘導長キャリブレーションモジュールを用いて問題を推定する。
難易度と正解率の低いアウトプットに対して、このフレームワークはより長い推論パスを罰するが、難易度と誤答率が高い場合には、思考の連鎖を拡張して代替ソリューションを探究する。
6つの公開医療QAベンチマークでは、AdaThink-Medは最小限の劣化で性能を維持しながら平均6.4倍の長さの縮小を実現している。
興味深いことに、AdaThink-Medは2つの異なる推論モードを自発的に発達させ、それを「非思考」と「思考」と呼び、モデルが冗長な推論過程を動的に抑制する能力を示す。
関連論文リスト
- OptimalThinkingBench: Evaluating Over and Underthinking in LLMs [51.2207559914731]
LLMは計算量を増やし、より単純な問題を過度に考えることで、複雑なタスクを解決します。
非思考のLSMはより高速で安価ですが、より難しい推論の問題について考えています。
LLMにおける過度な考えと過小評価を共同で評価する統一ベンチマークであるOptimalThinkingBenchを紹介する。
論文 参考訳(メタデータ) (2025-08-18T17:53:10Z) - Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models [23.642200042199484]
我々は、大規模言語モデル(RLLM)を推論するための文脈内学習(ICL)パラダイムとして、思考を伴う思考(JointThinking)を提案する。
提案手法は,思考モードと思考モードの2つの回答を並列に生成する。
JointThinkingは、数発のチェーン・オブ・シークレット・ロバスト性(CoT)と、回答の改善による多数決を著しく上回っている。
論文 参考訳(メタデータ) (2025-08-05T12:09:55Z) - Think How to Think: Mitigating Overthinking with Autonomous Difficulty Cognition in Large Reasoning Models [12.618562275265704]
近年のLarge Reasoning Models (LRMs) は複雑な推論タスクに優れるが、しばしば過度な思考に悩まされる。
本稿では,LRMの難易度認識と冗長性認知を段階的に刺激する,新しい2段階の微調整戦略であるThink-How-to-Think(TH2T)を提案する。
論文 参考訳(メタデータ) (2025-07-03T14:24:26Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。