論文の概要: DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference
- arxiv url: http://arxiv.org/abs/2601.18496v1
- Date: Mon, 26 Jan 2026 13:57:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.853451
- Title: DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference
- Title(参考訳): DEEPMED:マルチホップ・メドサーチデータとターン制御型エージェントトレーニング・推論による医用ディープリサーチエージェントの構築
- Authors: Zihan wang, Hao Wang, Shi Feng, Xiaocui Yang, Daling Wang, Yiqun Zhang, Jinghao Lin, Haihua Yang, Xiaozhong Ji,
- Abstract要約: DeepResearch(DR)は、ツールから検証可能な証拠を出力し、一般的なドメインで強力に実行する。
これは、タスク特性とツール使用のスケーリングの2つのギャップに起因しています。
DeepMedはベースモデルを平均で9.79%改善し、より大きな医学的推論とDRモデルを上回っている。
- 参考スコア(独自算出の注目度): 34.74491972658472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical reasoning models remain constrained by parametric knowledge and are thus susceptible to forgetting and hallucinations. DeepResearch (DR) models ground outputs in verifiable evidence from tools and perform strongly in general domains, but their direct transfer to medical field yields relatively limited gains. We attribute this to two gaps: task characteristic and tool-use scaling. Medical questions require evidence interpretation in a knowledge-intensive clinical context; while general DR models can retrieve information, they often lack clinical-context reasoning and thus "find it but fail to use it," leaving performance limited by medical abilities. Moreover, in medical scenarios, blindly scaling tool-call can inject noisy context, derailing sensitive medical reasoning and prompting repetitive evidence-seeking along incorrect paths. Therefore, we propose DeepMed. For data, we deploy a multi-hop med-search QA synthesis method supporting the model to apply the DR paradigm in medical contexts. For training, we introduce a difficulty-aware turn-penalty to suppress excessive tool-call growth. For inference, we bring a monitor to help validate hypotheses within a controlled number of steps and avoid context rot. Overall, on seven medical benchmarks, DeepMed improves its base model by 9.79\% on average and outperforms larger medical reasoning and DR models.
- Abstract(参考訳): 医学的推論モデルは、パラメトリックな知識によって制約され続けており、そのため、忘れたり幻覚したりする可能性がある。
DeepResearch(DR)は、ツールから検証可能な証拠を出力し、一般的なドメインで強く機能するが、医療分野への直接移行は比較的限られた利益をもたらす。
これは、タスク特性とツール使用のスケーリングの2つのギャップに起因しています。
一般的なDRモデルは情報を取り出すことができるが、臨床内容の推論が欠如しているため、医学的能力によってパフォーマンスが制限される。
さらに、医療のシナリオでは、盲目的にツールコールをスケールすることで、ノイズの多いコンテキストを注入し、繊細な医学的推論を脱線させ、誤った経路に沿って繰り返し証拠を探すよう促すことができる。
そこで我々はDeepMedを提案する。
データに対しては,DRパラダイムを医学的文脈に適用するためのモデルをサポートするマルチホップメドサーチQA合成手法をデプロイする。
トレーニングでは,ツールコールの過剰増加を抑制するために,ターンペナルティを意識したターンペナルティを導入する。
推論のために、制御されたステップ数内で仮説を検証するためのモニターを持ち込み、コンテキストの腐りを避ける。
総合的に7つの医学ベンチマークで、DeepMedはベースモデルを平均9.79 %改善し、より大きな医学的推論とDRモデルを上回っている。
関連論文リスト
- Tree-of-Reasoning: Towards Complex Medical Diagnosis via Multi-Agent Reasoning with Evidence Tree [14.013981070330153]
複雑なシナリオを扱うために設計された新しいマルチエージェントフレームワークであるTree-of-Reasoning (ToR)を提案する。
具体的には、大規模言語モデル(LLM)の推論経路とそれに対応する臨床証拠を明確に記録できるツリー構造を導入する。
同時に,マルチエージェント意思決定の整合性を確保するためのクロスバリデーション機構を提案する。
論文 参考訳(メタデータ) (2025-08-05T03:31:28Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - R2MED: A Benchmark for Reasoning-Driven Medical Retrieval [21.743193381874878]
推論駆動型医療検索のために設計された最初のベンチマークであるR2MEDを紹介する。
Q&A参照検索、臨床証拠検索、臨床症例検索の3つのタスクにまたがる876のクエリで構成されている。
我々はR2MED上で広く使われている15の検索システムを評価し,最良モデルでさえ31.4 nDCG@10しか達成できないことを確認した。
論文 参考訳(メタデータ) (2025-05-20T16:15:30Z) - MedHal: An Evaluation Dataset for Medical Hallucination Detection [4.98142540436183]
MedHalは、医療用テキストの幻覚をモデルが検出できるかどうかを評価するために設計された、新しい大規模データセットである。
MedHalは,(1)多様な医学的テキストソースとタスクを取り入れ,(2)医学的幻覚検出モデルの訓練に適した注釈付きサンプルを大量に提供し,(3)モデル学習を導くための事実的不整合の説明を含むギャップに対処する。
論文 参考訳(メタデータ) (2025-04-11T14:55:15Z) - MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs [39.65443626577068]
高品質な医療推論データセットであるMedReasonを紹介する。
我々のパイプラインは7つの医学データセットから様々な医学的質問の詳細な推論を生成する。
私たちの最高のパフォーマンスモデルであるMedReason-8Bは、最先端の医療推論モデルであるHuatuo-o1-8Bを、臨床ベンチマークMedBulletsで最大4.2%上回っています。
論文 参考訳(メタデータ) (2025-04-01T17:31:44Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。