論文の概要: CURE: Confidence-driven Unified Reasoning Ensemble Framework for Medical Question Answering
- arxiv url: http://arxiv.org/abs/2510.14353v1
- Date: Thu, 16 Oct 2025 06:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.750179
- Title: CURE: Confidence-driven Unified Reasoning Ensemble Framework for Medical Question Answering
- Title(参考訳): CURE: 信頼性駆動型統一推論アンサンブルフレームワーク
- Authors: Ziad Elshaer, Essam A. Rashed,
- Abstract要約: 本研究では,微調整を伴わずに医療質問応答を向上させるための信頼性駆動型マルチモデルフレームワークを提案する。
信頼度検出モジュールはプライマリモデルの確実性を評価し、適応的ルーティング機構は協調推論のための補完的な知識を持つヘルパーモデルに低信頼度クエリを誘導する。
- 参考スコア(独自算出の注目度): 0.2291770711277359
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High-performing medical Large Language Models (LLMs) typically require extensive fine-tuning with substantial computational resources, limiting accessibility for resource-constrained healthcare institutions. This study introduces a confidence-driven multi-model framework that leverages model diversity to enhance medical question answering without fine-tuning. Our framework employs a two-stage architecture: a confidence detection module assesses the primary model's certainty, and an adaptive routing mechanism directs low-confidence queries to Helper models with complementary knowledge for collaborative reasoning. We evaluate our approach using Qwen3-30B-A3B-Instruct, Phi-4 14B, and Gemma 2 12B across three medical benchmarks; MedQA, MedMCQA, and PubMedQA. Result demonstrate that our framework achieves competitive performance, with particularly strong results in PubMedQA (95.0\%) and MedMCQA (78.0\%). Ablation studies confirm that confidence-aware routing combined with multi-model collaboration substantially outperforms single-model approaches and uniform reasoning strategies. This work establishes that strategic model collaboration offers a practical, computationally efficient pathway to improve medical AI systems, with significant implications for democratizing access to advanced medical AI in resource-limited settings.
- Abstract(参考訳): 高いパフォーマンスの医療用大規模言語モデル(LLM)は、典型的には、かなりの計算資源を持つ広範囲な微調整を必要とし、リソースに制約のある医療機関のアクセシビリティを制限する。
本研究では,モデル多様性を利用した信頼性駆動型マルチモデルフレームワークを導入し,微調整なしで医療質問応答を向上させる。
信頼度検出モジュールはプライマリモデルの確実性を評価し、適応的ルーティング機構は協調推論のための補完的な知識を持つヘルパーモデルに低信頼度クエリを誘導する。
MedQA, MedMCQA, PubMedQAの3つのベンチマークにおいて, Qwen3-30B-A3B-Instruct, Phi-4 14B, Gemma 2 12Bを用いてアプローチを評価した。
特にPubMedQA (95.0\%) と MedMCQA (78.0\%) で強い結果が得られた。
アブレーション研究は、信頼度を考慮したルーティングとマルチモデル協調を組み合わせることで、単一モデルアプローチと一様推論戦略を大幅に上回っていることを確認した。
この研究は、戦略的モデルコラボレーションが、リソース制限された環境で高度な医療AIへのアクセスを民主化するために重要な意味を持つ、医療AIシステムを改善するための実用的で効率的な経路を提供することを証明している。
関連論文リスト
- MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning [53.37068897861388]
MedSAM-Agentは、対話的なセグメンテーションを多段階の自律的な意思決定プロセスとして再構築するフレームワークである。
マルチターン・エンド・ツー・エンドの成果検証を統合した2段階のトレーニングパイプラインを開発した。
6つの医療モダリティと21のデータセットにわたる実験は、MedSAM-Agentが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-03T09:47:49Z) - MedAD-R1: Eliciting Consistent Reasoning in Interpretible Medical Anomaly Detection via Consistency-Reinforced Policy Optimization [46.65200216642429]
我々はMedADの最初の大規模マルチモーダル・マルチセンタベンチマークであるMedAD-38Kを紹介し、構造化された視覚質問応答(VQA)ペアとともに、CoT(Chain-of-Thought)アノテーションを特徴付ける。
提案するモデルであるMedAD-R1は、MedAD-38Kベンチマーク上での最先端(SOTA)性能を実現し、強いベースラインを10%以上上回った。
論文 参考訳(メタデータ) (2026-02-01T07:56:10Z) - Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation [97.36081721024728]
本稿では,現実的な医療相談におけるマルチターンインタラクションの信頼性を評価するための最初のベンチマークを提案する。
本ベンチマークでは,3種類の医療データを統合し,診断を行う。
本稿では,エビデンスを基盤とした言語自己評価フレームワークであるMedConfを紹介する。
論文 参考訳(メタデータ) (2026-01-22T04:51:39Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Secure Multi-Modal Data Fusion in Federated Digital Health Systems via MCP [0.0]
本研究では,モデルコンテキストプロトコル(MCP)を,セキュアなクロスエージェント通信のための相互運用層として活用する新しいフレームワークを提案する。
提案アーキテクチャは,臨床画像,電子カルテ,ウェアラブルIoTデータに対するマルチモーダルな特徴アライメント,患者に敏感な更新を保護するために差分プライバシによるセキュアなアグリゲーション,モバイルクライアントにおけるドロップアウトを軽減するためのエネルギー認識スケジューリングの3つの柱を統合する。
論文 参考訳(メタデータ) (2025-10-02T08:19:56Z) - Baichuan-M2: Scaling Medical Capability with Large Verifier System [40.86227022086866]
静的解答検証を超越した,新しい動的検証フレームワークを提案する。
多段階強化学習戦略によって訓練された医療強化推論モデルBaichuan-M2を開発した。
HealthBenchでの評価では、Baichuan-M2は、他のすべてのオープンソースモデルや、最も高度なクローズドソースモデルよりも優れています。
論文 参考訳(メタデータ) (2025-09-02T11:23:35Z) - MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - InfiMed: Low-Resource Medical MLLMs with Advancing Understanding and Reasoning [19.791150694039466]
InfiMed-SFT-3B と InfiMed-RL-3B は7つのマルチモーダル医療ベンチマークで最先端のパフォーマンスを実現する。
InfiMed-RL-3Bの平均精度は59.2%であり、InternVL3-8Bのような大型モデルよりも57.3%高い。
論文 参考訳(メタデータ) (2025-05-29T10:31:57Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - FEDKIM: Adaptive Federated Knowledge Injection into Medical Foundation Models [54.09244105445476]
本研究は,フェデレート・ラーニング・フレームワーク内で医療基盤モデルを拡張するための新しい知識注入手法であるFedKIMを紹介する。
FedKIMは軽量なローカルモデルを活用して、プライベートデータから医療知識を抽出し、この知識を集中基盤モデルに統合する。
7つのモードで12タスクを対象に実験を行い,FedKIMの有効性について検討した。
論文 参考訳(メタデータ) (2024-08-17T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。