論文の概要: Haibu Mathematical-Medical Intelligent Agent:Enhancing Large Language Model Reliability in Medical Tasks via Verifiable Reasoning Chains
- arxiv url: http://arxiv.org/abs/2510.07748v1
- Date: Thu, 09 Oct 2025 03:35:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.849616
- Title: Haibu Mathematical-Medical Intelligent Agent:Enhancing Large Language Model Reliability in Medical Tasks via Verifiable Reasoning Chains
- Title(参考訳): ハイブ数学・医学知能エージェント:検証型推論チェーンによる医療タスクにおける大規模言語モデルの信頼性向上
- Authors: Yilun Zhang, Dexing Kong,
- Abstract要約: LLM(Large Language Models)は医学における有望さを示すが、現実的および論理的誤りを生じやすい。
The Haibu Mathematical-Medical Intelligent Agent (MMIA)は、正式に検証可能な推論プロセスを通じて信頼性を確保する。
MMIAの「ブートストラップ」モードは、理論として検証された推論連鎖を記憶する
- 参考スコア(独自算出の注目度): 4.198863375486898
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) show promise in medicine but are prone to factual and logical errors, which is unacceptable in this high-stakes field. To address this, we introduce the "Haibu Mathematical-Medical Intelligent Agent" (MMIA), an LLM-driven architecture that ensures reliability through a formally verifiable reasoning process. MMIA recursively breaks down complex medical tasks into atomic, evidence-based steps. This entire reasoning chain is then automatically audited for logical coherence and evidence traceability, similar to theorem proving. A key innovation is MMIA's "bootstrapping" mode, which stores validated reasoning chains as "theorems." Subsequent tasks can then be efficiently solved using Retrieval-Augmented Generation (RAG), shifting from costly first-principles reasoning to a low-cost verification model. We validated MMIA across four healthcare administration domains, including DRG/DIP audits and medical insurance adjudication, using expert-validated benchmarks. Results showed MMIA achieved an error detection rate exceeding 98% with a false positive rate below 1%, significantly outperforming baseline LLMs. Furthermore, the RAG matching mode is projected to reduce average processing costs by approximately 85% as the knowledge base matures. In conclusion, MMIA's verifiable reasoning framework is a significant step toward creating trustworthy, transparent, and cost-effective AI systems, making LLM technology viable for critical applications in medicine.
- Abstract(参考訳): 大規模言語モデル (LLM) は医学において有望であるが, 事実的, 論理的誤りを生じやすい。
これを解決するために,正式に検証可能な推論プロセスを通じて信頼性を確保する LLM 駆動アーキテクチャである "Haibu Mathematical-Medical Intelligent Agent" (MMIA) を導入する。
MMIAは、複雑な医療タスクを原子的、エビデンスに基づくステップに再帰的に分解する。
この全ての推論連鎖は、定理証明と同様、論理的コヒーレンスとエビデンストレーサビリティのために自動的に監査される。
鍵となる革新はMMIAの「ブートストラッピング」モードであり、検証された推論連鎖を「理論」として保存する。
その後のタスクはRetrieval-Augmented Generation (RAG)を使用して効率よく解決され、コストのかかる第一原理推論から低コストの検証モデルへとシフトする。
我々は,専門家評価ベンチマークを用いて,DRG/DIP監査や医療保険調整を含む4つの医療行政分野のMMIAを検証した。
その結果,MMIAは誤り検出率98%を超え,偽陽性率は1%以下であり,ベースラインLLMよりも有意に優れていた。
さらに、知識ベースが成熟するにつれて、RAGマッチングモードは平均処理コストを約85%削減する。
結論として、MMIAの検証可能な推論フレームワークは、信頼できる透明で費用対効果の高いAIシステムを構築するための重要なステップであり、LLM技術は医学における重要な応用に有効である。
関連論文リスト
- MedMMV: A Controllable Multimodal Multi-Agent Framework for Reliable and Verifiable Clinical Reasoning [35.97057940590796]
MedMMV(MedMMV)は,信頼性・信頼性の高い臨床推論のための多エージェントフレームワークである。
6つの医療ベンチマークでは、MedMMVは最大12.7%の精度向上を実現し、さらに重要な点として信頼性の向上が示されている。
論文 参考訳(メタデータ) (2025-09-29T05:51:25Z) - MIRA: A Novel Framework for Fusing Modalities in Medical RAG [6.044279952668295]
MLLMにおける実測精度の最適化を目的としたMIRA(Multimodal Intelligent Retrieval and Augmentation)フレームワークを提案する。
MIRAは,(1)検索コンテキスト数を動的に調整して事実リスクを管理する校正再考・再配置モジュール,(2)画像埋め込みと医用知識ベースを統合した医用RAGフレームワークと,効率的なマルチモーダル推論を行うクエリ・リライトモジュールの2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2025-07-10T16:33:50Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - Benchmarking Chinese Medical LLMs: A Medbench-based Analysis of Performance Gaps and Hierarchical Optimization Strategies [11.0505830548286]
本研究は,MedBench上の上位10モデルの系統的解析を通じて,粒度の誤差分類を導入する。
10つの主要なモデルの評価は、医療知識のリコールにおいて0.86の精度を達成したにもかかわらず、脆弱性を明らかにしている。
知識境界法と多段階推論の体系的弱点を明らかにする。
論文 参考訳(メタデータ) (2025-03-10T13:28:25Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。