論文の概要: MedResearcher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework
- arxiv url: http://arxiv.org/abs/2508.14880v3
- Date: Mon, 01 Sep 2025 15:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.651464
- Title: MedResearcher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework
- Title(参考訳): MedResearcher-R1:知識インフォームド軌道合成フレームワークによるエキスパートレベル医療深層研究者
- Authors: Ailing Yu, Lan Yao, Jingnan Liu, Zhe Chen, Jiajun Yin, Yuan Wang, Xinhao Liao, Zhiling Ye, Ji Li, Yun Yue, Hansong Xiao, Hualei Zhou, Chunxiao Guo, Peng Wei, Junwei Liu, Jinjie Gu,
- Abstract要約: 汎用的なディープリサーチエージェントは、主要なプロプライエタリなシステムによって証明されているように、医療領域の課題に苦しむ。
2つのコアイノベーションを通じてこれらの課題に対処する医療深層研究エージェントを提示する。
本手法は12の専門分野にまたがる2100以上の多様な軌道を生成し,それぞれが平均4.2のツールインタラクションを発生させる。
- 参考スコア(独自算出の注目度): 24.399778346443757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in Large Language Model (LLM)-based agents have shown impressive capabilities spanning multiple domains, exemplified by deep research systems that demonstrate superior performance on complex information-seeking and synthesis tasks. While general-purpose deep research agents have shown impressive capabilities, they struggle significantly with medical domain challenges, as evidenced by leading proprietary systems achieving limited accuracy on complex medical benchmarks. The key limitations are: (1) the model lacks sufficient dense medical knowledge for clinical reasoning, and (2) the framework is constrained by the absence of specialized retrieval tools tailored for medical contexts. We present a medical deep research agent that addresses these challenges through two core innovations. First, we develop a novel data synthesis framework using medical knowledge graphs, extracting the longest chains from subgraphs around rare medical entities to generate complex multi-hop question-answer pairs. Second, we integrate a custom-built private medical retrieval engine alongside general-purpose tools, enabling accurate medical information synthesis. Our approach generates 2100+ diverse trajectories across 12 medical specialties, each averaging 4.2 tool interactions. Through a two-stage training paradigm combining supervised fine-tuning and online reinforcement learning with composite rewards, our MedResearcher-R1-32B model demonstrates exceptional performance, establishing new state-of-the-art results on medical benchmarks while maintaining competitive performance on general deep research tasks. Our work demonstrates that strategic domain-specific innovations in architecture, tool design, and training data construction can enable smaller open-source models to outperform much larger proprietary systems in specialized domains.
- Abstract(参考訳): 近年のLarge Language Model (LLM) ベースのエージェントは、複雑な情報探索や合成タスクにおいて優れた性能を示すディープリサーチシステムによって実証された、複数のドメインにまたがる印象的な能力を示している。
汎用的なディープリサーチエージェントは印象的な能力を示しているが、複雑な医療ベンチマークで限られた精度を達成しているプロプライエタリなシステムによって証明されているように、医療領域の課題にかなり苦労している。
主な制約は,(1)臨床推論に十分な詳細な医療知識が欠如していること,(2)医学的文脈に適した専門的な検索ツールが存在しないこと,である。
2つのコアイノベーションを通じてこれらの課題に対処する医療深層研究エージェントを提示する。
まず, 医療知識グラフを用いた新しいデータ合成フレームワークを開発し, 稀少な医療機関のサブグラフから最長のチェーンを抽出し, 複雑なマルチホップ質問応答ペアを生成する。
第2に、我々は汎用ツールとともにカスタムメイドの医療検索エンジンを統合し、正確な医療情報合成を可能にする。
本手法は12の専門分野にまたがる2100以上の多様な軌道を生成し,それぞれが平均4.2のツールインタラクションを発生させる。
MedResearcher-R1-32Bモデルは、教師付き微調整とオンライン強化学習と複合報酬を組み合わせた2段階のトレーニングパラダイムを通じて、優れたパフォーマンスを示し、一般的な深層研究タスクにおける競争性能を維持しながら、医療ベンチマークに新たな最先端の結果を確立する。
私たちの研究は、アーキテクチャ、ツールデザイン、データ構築のトレーニングにおける戦略的ドメイン固有の革新によって、より小さなオープンソースモデルが、特別なドメインにおいてはるかに大きなプロプライエタリなシステムを上回ることを実証しています。
関連論文リスト
- DR.EHR: Dense Retrieval for Electronic Health Record with Knowledge Injection and Synthetic Data [2.9929405444223205]
EHRは臨床実践において重要な役割を担っているが、その検索は主に意味的ギャップの問題によって困難である。
近年の高密度検索の進歩は有望なソリューションを提供するが、医療知識の不足やトレーニングコーパスのミスマッチにより、一般ドメインとバイオメディカルドメインの両方の既存のモデルは不足している。
本稿では,EHR検索に適した高密度検索モデルであるtexttDR.EHRを紹介する。
論文 参考訳(メタデータ) (2025-07-24T17:02:46Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - MEDMKG: Benchmarking Medical Knowledge Exploitation with Multimodal Knowledge Graph [28.79000907242469]
医用マルチモーダル知識グラフであるMEDMKGを提案する。
我々は,3つのタスクにまたがるMEDMKGを2つの実験的な設定で評価し,24のベースライン法と4つの最先端のビジョン言語バックボーンを6つのデータセットでベンチマークした。
その結果,MEDMKGは下流医療タスクの性能向上だけでなく,医療人工知能におけるマルチモーダル知識統合のための適応的かつ堅牢な戦略開発のための強力な基盤を提供することがわかった。
論文 参考訳(メタデータ) (2025-05-22T18:41:46Z) - MedAgentBoard: Benchmarking Multi-Agent Collaboration with Conventional Methods for Diverse Medical Tasks [27.717720332927296]
我々はMedAgentBoardを紹介する。MedAgentBoardは、マルチエージェントコラボレーション、シングルLLM、および従来のアプローチの体系的評価のための総合的なベンチマークである。
MedAgentBoardには、医療(視覚)質問応答、レイサマリ生成、構造化電子健康記録(EHR)予測モデリング、臨床ワークフロー自動化の4つの多様な医療タスクカテゴリが含まれている。
マルチエージェントコラボレーションは特定のシナリオにおいてメリットを示すが、高度な単一LLMを一貫して上回るものではない。
論文 参考訳(メタデータ) (2025-05-18T11:28:17Z) - Towards Artificial Intelligence Research Assistant for Expert-Involved Learning [64.7438151207189]
大規模言語モデル (LLMs) と大規模多モードモデル (LMMs) は科学研究における変革的ツールとして登場している。
textbfExpert-involved textbfLearning (ARIEL)のためのtextbfARtificial textbfIntelligence Research Assistantを提案する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - m-KAILIN: Knowledge-Driven Agentic Scientific Corpus Distillation Framework for Biomedical Large Language Models Training [22.996230737442254]
バイオメディカルな大規模言語モデル(LLM)のためのコーパスヘッダーは、オープンソースの科学コーパスにおいて、不十分な量と品質のプレス課題に対処しようとしている。
本稿では, バイオメディカル領域におけるLLMトレーニングに適した, 科学的コーパス蒸留のための知識駆動型エージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-28T08:18:24Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。