論文の概要: Second Opinion Matters: Towards Adaptive Clinical AI via the Consensus of Expert Model Ensemble
- arxiv url: http://arxiv.org/abs/2505.23075v1
- Date: Thu, 29 May 2025 04:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.676435
- Title: Second Opinion Matters: Towards Adaptive Clinical AI via the Consensus of Expert Model Ensemble
- Title(参考訳): 第2の意見:エキスパートモデルアンサンブルの合意を通じた適応型臨床AIを目指して
- Authors: Amit Kumthekar, Zion Tilley, Henry Duong, Bhargav Patel, Michael Magnoli, Ahmed Omar, Ahmed Nasser, Chaitanya Gharpure, Yevgen Reztzov,
- Abstract要約: 本稿では, 単一モデルシステムにおける可溶化および剛性依存のリスクを克服する, コンセンサス機構と呼ばれる新しい枠組みを提案する。
コンセンサスメカニズムは、臨床意思決定の改善を可能にする専門的な医療専門家のアンサンブルを実装している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the growing clinical adoption of large language models (LLMs), current approaches heavily rely on single model architectures. To overcome risks of obsolescence and rigid dependence on single model systems, we present a novel framework, termed the Consensus Mechanism. Mimicking clinical triage and multidisciplinary clinical decision-making, the Consensus Mechanism implements an ensemble of specialized medical expert agents enabling improved clinical decision making while maintaining robust adaptability. This architecture enables the Consensus Mechanism to be optimized for cost, latency, or performance, purely based on its interior model configuration. To rigorously evaluate the Consensus Mechanism, we employed three medical evaluation benchmarks: MedMCQA, MedQA, and MedXpertQA Text, and the differential diagnosis dataset, DDX+. On MedXpertQA, the Consensus Mechanism achieved an accuracy of 61.0% compared to 53.5% and 45.9% for OpenAI's O3 and Google's Gemini 2.5 Pro. Improvement was consistent across benchmarks with an increase in accuracy on MedQA ($\Delta\mathrm{Accuracy}_{\mathrm{consensus\text{-}O3}} = 3.4\%$) and MedMCQA ($\Delta\mathrm{Accuracy}_{\mathrm{consensus\text{-}O3}} = 9.1\%$). These accuracy gains extended to differential diagnosis generation, where our system demonstrated improved recall and precision (F1$_\mathrm{consensus}$ = 0.326 vs. F1$_{\mathrm{O3\text{-}high}}$ = 0.2886) and a higher top-1 accuracy for DDX (Top1$_\mathrm{consensus}$ = 52.0% vs. Top1$_{\mathrm{O3\text{-}high}}$ = 45.2%).
- Abstract(参考訳): 大規模言語モデル (LLMs) の臨床試験が増加しているにもかかわらず、現在のアプローチは単一のモデルアーキテクチャに大きく依存している。
単一モデルシステムにおける強弱化と剛性依存のリスクを克服するため,コンセンサス機構と呼ばれる新しい枠組みを提案する。
臨床トリアージと多分野の臨床試験決定を模倣するコンセンサスメカニズムは、堅牢な適応性を維持しつつ、臨床意思決定の改善を可能にする専門的な医療専門家の集まりを実装している。
このアーキテクチャにより、Consensus Mechanismはコスト、レイテンシ、パフォーマンスに最適化できる。
MedMCQA, MedQA, MedXpertQA Text と差分診断データセット DDX+ の3つの医療評価ベンチマークを用いた。
MedXpertQAでは、OpenAIのO3とGoogleのGemini 2.5 Proの53.5%と45.9%と比較してコンセンサス機構が61.0%の精度を達成した。
MedQA ($\Delta\mathrm{Accuracy}_{\mathrm{consensus\text{-}O3}} = 3.4\%$) と MedMCQA ($\Delta\mathrm{Accuracy}_{\mathrm{consensus\text{-}O3}} = 9.1\%$) の精度が向上した。
F1$_\mathrm{consensus}$ = 0.326 vs. F1$_{\mathrm{O3\text{-}high}}$ = 0.2886) と DDX (Top1$_\mathrm{consensus}$ = 52.0% vs. Top1$_{\mathrm{O3\text{-}high}}$ = 452% である。
関連論文リスト
- A Modular Approach for Clinical SLMs Driven by Synthetic Data with Pre-Instruction Tuning, Model Merging, and Clinical-Tasks Alignment [46.776978552161395]
小型言語モデル(SLM)は、GPT-4のような大規模言語モデルに代わる費用対効果を提供する。
SLMは費用対効果のある代替手段を提供するが、その限られた能力は生物医学的な領域適応を必要とする。
本研究では,SLMを高性能な臨床モデルに適用するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T21:40:21Z) - Foam-Agent: Towards Automated Intelligent CFD Workflows [2.303486126296845]
自然言語入力から複雑なOpenFOAMベースのCFDシミュレーションを自動化するマルチエージェントフレームワークであるFoam-Agentを提案する。
我々の革新は、(1)異なるシミュレーションの側面を特化した階層型マルチインデックス検索システム、(2)構成ファイル間の整合性管理を提供する依存性対応ファイル生成システム、(3)人間の介入なしにシミュレーション失敗を診断・解決する反復的エラー訂正機構を含む。
論文 参考訳(メタデータ) (2025-05-08T07:05:51Z) - Can Reasoning LLMs Enhance Clinical Document Classification? [7.026393789313748]
大規模言語モデル(LLM)は、このタスクの正確性と効率性において有望な改善を提供する。
本研究では,8つのLDMの性能と一貫性を評価する。4つの推論(Qwen QWQ, Deepseek Reasoner, GPT o3 Mini, Gemini 2.0 Flash Thinking)と4つの非推論(Llama 3.3, GPT 4o Mini, Gemini 2.0 Flash, Deepseek Chat)。
その結果、推論モデルは精度71%(68%)とF1スコア(67%(60%))で非推論モデルを上回った。
論文 参考訳(メタデータ) (2025-04-10T18:00:27Z) - Efficient Brain Tumor Classification with Lightweight CNN Architecture: A Novel Approach [0.0]
MRI画像を用いた脳腫瘍の分類は、早期かつ正確な検出が患者の予後に大きな影響を及ぼす医療診断において重要である。
近年のディープラーニング(DL)の進歩は将来性を示しているが、多くのモデルは精度と計算効率のバランスに苦慮している。
本稿では,分離可能な畳み込みと圧縮・励振ブロック(SEブロック)を統合した新しいモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-01T21:06:42Z) - A Cascaded Dilated Convolution Approach for Mpox Lesion Classification [0.0]
Mpoxウイルスは、他の皮膚疾患と視覚的に類似しているため、重要な診断上の課題を呈する。
深層学習に基づく皮膚病変分類のアプローチは、有望な代替手段を提供する。
本稿では,これらの課題に対処するためのCascaded Atrous Group Attentionフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-12-13T12:47:30Z) - DDxT: Deep Generative Transformer Models for Differential Diagnosis [51.25660111437394]
より単純な教師付き学習信号と自己教師付き学習信号で訓練した生成的アプローチが,現在のベンチマークにおいて優れた結果が得られることを示す。
The proposed Transformer-based generative network, named DDxT, autoregressive produce a set of possible pathology,, i. DDx, and predicts the real pathology using a neural network。
論文 参考訳(メタデータ) (2023-12-02T22:57:25Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Automatic diagnosis of knee osteoarthritis severity using Swin
transformer [55.01037422579516]
変形性膝関節症 (KOA) は膝関節の慢性的な痛みと硬直を引き起こす疾患である。
我々は,Swin Transformer を用いて KOA の重大度を予測する自動手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T09:49:30Z) - Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。
DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。