論文の概要: AdaThink-Med: Medical Adaptive Thinking with Uncertainty-Guided Length Calibration
- arxiv url: http://arxiv.org/abs/2509.24560v1
- Date: Mon, 29 Sep 2025 10:13:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.917328
- Title: AdaThink-Med: Medical Adaptive Thinking with Uncertainty-Guided Length Calibration
- Title(参考訳): AdaThink-Med:不確実性ガイド長校正による医学的適応的思考
- Authors: Shaohao Rui, Kaitao Chen, Weijie Ma, Xiaosong Wang,
- Abstract要約: 本稿では,医療推論モデルにおける適応的思考能力の向上を目的としたエンドツーエンドフレームワークであるAdaThink-Medを提案する。
AdaThink-Med はまず各質問に対して複数の候補出力を生成し、各候補の正しさと不確実性を評価し、不確実性誘導長キャリブレーションモジュールを用いて問題を推定する。
6つの公開医療QAベンチマークでは、AdaThink-Medは最小限の劣化で性能を維持しながら平均6.4倍の長さの縮小を実現している。
- 参考スコア(独自算出の注目度): 4.33177021777927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in inference time scaling with extended long chain-of thought have significantly improved the reasoning capabilities of both general and medical large language models (LLMs). However, these models tend to engage in lengthy reasoning processes regardless of the difficulty of the input question, leading to increased inference costs in real-world applications. Therefore, enabling adaptive thinking where models think less for simpler questions and think more for complex ones is critical for the effective use of medical LLMs in practice. Despite its importance, there is a lack of end-to-end approaches designed to enhance the adaptive thinking capabilities of medical LLMs while providing a comprehensive examination of the trade-off between performance and computational cost. To bridge this gap, we propose AdaThink-Med, the first end-to-end framework designed to enhance adaptive thinking ability in medical reasoning models with uncertainty-guided length calibration. AdaThink-Med first generates multiple candidate outputs for each question, evaluates the correctness and uncertainty of each candidate, and then estimates problem difficulty via an uncertainty-guided length calibration module. For outputs with low difficulty and correct answers, the framework penalizes longer reasoning paths; whereas for those with high difficulty and incorrect answers, it encourages extending the chain of thought to explore alternative solutions. On six public medical QA benchmarks, AdaThink-Med achieves up to 6.4x length reduction on average while retaining performance with only minimal degradation. Intriguingly, we observe that AdaThink-Med spontaneously develops two distinct reasoning modes, which we characterize as "non-thinking" and "thinking", demonstrating the model's ability to suppress redundant reasoning processes dynamically.
- Abstract(参考訳): 長鎖思考による推論時間スケーリングの最近の進歩は、一般および医療用大言語モデル(LLM)の推論能力を大幅に向上させた。
しかし、これらのモデルは入力問題の難しさに関わらず、長い推論プロセスに携わる傾向にあり、現実のアプリケーションでは推論コストが増大する。
したがって、モデルがより単純な質問に対して考えることが少なく、複雑な質問に対して考えることの少ない適応的思考を可能にすることは、実際に医療用LLMを効果的に活用するために重要である。
その重要性にもかかわらず、医療用LCMの適応的思考能力を高めるために設計されたエンドツーエンドのアプローチは欠如しており、性能と計算コストのトレードオフを包括的に検証している。
このギャップを埋めるために,不確実な長さ校正を含む医学推論モデルにおける適応的思考能力を高めるために設計された,最初のエンドツーエンドフレームワークであるAdaThink-Medを提案する。
AdaThink-Med はまず各質問に対して複数の候補出力を生成し、各候補の正しさと不確実性を評価し、不確実性誘導長キャリブレーションモジュールを用いて問題を推定する。
難易度と正解率の低いアウトプットに対して、このフレームワークはより長い推論パスを罰するが、難易度と誤答率が高い場合には、思考の連鎖を拡張して代替ソリューションを探究する。
6つの公開医療QAベンチマークでは、AdaThink-Medは最小限の劣化で性能を維持しながら平均6.4倍の長さの縮小を実現している。
興味深いことに、AdaThink-Medは2つの異なる推論モードを自発的に発達させ、それを「非思考」と「思考」と呼び、モデルが冗長な推論過程を動的に抑制する能力を示す。
関連論文リスト
- Stable Adaptive Thinking via Advantage Shaping and Length-Aware Gradient Regulation [14.501114943020589]
大規模推論モデル(LRM)は、拡張された推論トレースを通じて強力な性能を達成する。
LRMは低複雑さのクエリに対して過度な振る舞いを示すことが多い。
LRMにおける安定的適応的思考のための2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-26T02:49:36Z) - To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks [56.11584171938381]
心の理論 (ToM) は、モデルが信念、欲望、意図などの隠された精神状態を推測できるかどうかを評価する。
近年のLRM(Large Reasoning Models)の進歩により、数学やコーディングにおけるステップバイステップ推論が向上している。
本研究では,9つの大規模言語モデル(LLM)の体系的研究を行い,推論モデルと非推論モデルを比較した。
論文 参考訳(メタデータ) (2026-02-11T08:16:13Z) - MixReasoning: Switching Modes to Think [79.70845484191543]
推論モデルは、ステップバイステップで問題に取り組むことでパフォーマンスを向上させる。
あらゆるステップに拡張推論を適用することは、かなりの冗長性をもたらす。
一つの応答内で推論の深さを動的に調整するフレームワークであるMixReasoningを提案する。
論文 参考訳(メタデータ) (2025-10-07T15:46:34Z) - Explore Briefly, Then Decide: Mitigating LLM Overthinking via Cumulative Entropy Regulation [82.62935304152239]
大規模言語モデル(LLM)は、長いチェーン・オブ・ソート(CoT)推論を用いた複雑な問題に対する顕著な推論能力を示した。
しばしば過度の思考に悩まされ、単純な問題に対して必要以上に長い推論ステップが生じる。
本稿では, 推論過程を通じて探索範囲を計測する新しい計量量であるToken Entropy Cumulative Average(TECA)を紹介する。
論文 参考訳(メタデータ) (2025-10-02T17:36:50Z) - OptimalThinkingBench: Evaluating Over and Underthinking in LLMs [51.2207559914731]
LLMは計算量を増やし、より単純な問題を過度に考えることで、複雑なタスクを解決します。
非思考のLSMはより高速で安価ですが、より難しい推論の問題について考えています。
LLMにおける過度な考えと過小評価を共同で評価する統一ベンチマークであるOptimalThinkingBenchを紹介する。
論文 参考訳(メタデータ) (2025-08-18T17:53:10Z) - Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models [23.642200042199484]
我々は、大規模言語モデル(RLLM)を推論するための文脈内学習(ICL)パラダイムとして、思考を伴う思考(JointThinking)を提案する。
提案手法は,思考モードと思考モードの2つの回答を並列に生成する。
JointThinkingは、数発のチェーン・オブ・シークレット・ロバスト性(CoT)と、回答の改善による多数決を著しく上回っている。
論文 参考訳(メタデータ) (2025-08-05T12:09:55Z) - Think How to Think: Mitigating Overthinking with Autonomous Difficulty Cognition in Large Reasoning Models [12.618562275265704]
近年のLarge Reasoning Models (LRMs) は複雑な推論タスクに優れるが、しばしば過度な思考に悩まされる。
本稿では,LRMの難易度認識と冗長性認知を段階的に刺激する,新しい2段階の微調整戦略であるThink-How-to-Think(TH2T)を提案する。
論文 参考訳(メタデータ) (2025-07-03T14:24:26Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - AdaptThink: Reasoning Models Can Learn When to Think [42.77877234302026]
本稿では,問題難易度に基づいて最適な思考モードを選択するために推論モデルを教える新しいRLアルゴリズムであるAdaptThinkを提案する。
実験の結果,AdaptThinkは推論コストを大幅に削減し,性能をさらに向上することが示された。
論文 参考訳(メタデータ) (2025-05-19T17:50:52Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。