論文の概要: RareAlert: Aligning heterogeneous large language model reasoning for early rare disease risk screening
- arxiv url: http://arxiv.org/abs/2601.18132v1
- Date: Mon, 26 Jan 2026 04:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.677501
- Title: RareAlert: Aligning heterogeneous large language model reasoning for early rare disease risk screening
- Title(参考訳): RareAlert: 早期疾患リスクスクリーニングのための異種大言語モデルの調整
- Authors: Xi Chen, Hongru Zhou, Huahui Yi, Shiyu Feng, Hanyu Zhou, Tiancheng He, Mingke You, Li Wang, Qiankun Li, Kun Wang, Weili Fu, Kang Li, Jian Li,
- Abstract要約: 早期スクリーニングシステムであるRareAlertについて,日常的に利用可能なプライマリビジット情報から患者レベルのまれな疾患リスクを予測する。
RareAlertは10のLLMによって生成された推論を統合し、機械学習を使用してこれらの信号をキャラブレートと重み付けし、整列した推論を単一のローカルデプロイ可能なモデルに置き換える。
- 参考スコア(独自算出の注目度): 19.93227904357489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Missed and delayed diagnosis remains a major challenge in rare disease care. At the initial clinical encounters, physicians assess rare disease risk using only limited information under high uncertainty. When high-risk patients are not recognised at this stage, targeted diagnostic testing is often not initiated, resulting in missed diagnosis. Existing primary care triage processes are structurally insufficient to reliably identify patients with rare diseases at initial clinical presentation and universal screening is needed to reduce diagnostic delay. Here we present RareAlert, an early screening system which predict patient-level rare disease risk from routinely available primary-visit information. RareAlert integrates reasoning generated by ten LLMs, calibrates and weights these signals using machine learning, and distils the aligned reasoning into a single locally deployable model. To develop and evaluate RareAlert, we curated RareBench, a real-world dataset of 158,666 cases covering 33 Orphanet disease categories and more than 7,000 rare conditions, including both rare and non-rare presentations. The results showed that rare disease identification can be reconceptualised as a universal uncertainty resolution process applied to the general patient population. On an independent test set, RareAlert, a Qwen3-4B based model trained with calibrated reasoning signals, achieved an AUC of 0.917, outperforming the best machine learning ensemble and all evaluated LLMs, including GPT-5, DeepSeek-R1, Claude-3.7-Sonnet, o3-mini, Gemini-2.5-Pro, and Qwen3-235B. These findings demonstrate the diversity in LLM medical reasoning and the effectiveness of aligning such reasoning in highly uncertain clinical tasks. By incorporating calibrated reasoning into a single model, RareAlert enables accurate, privacy-preserving, and scalable rare disease risk screening suitable for large-scale local deployment.
- Abstract(参考訳): 軽度診断や遅発性診断は稀な疾患治療において大きな課題である。
初診時に、医師は、高い不確実性の下で限られた情報のみを用いて、稀な疾患リスクを評価する。
この段階で高リスク患者が認識されない場合、標的診断検査は行われず、診断に失敗することが多い。
既存のプライマリケアトリアージプロセスは、初期臨床で稀な疾患の患者を確実に識別するには構造的に不十分であり、診断の遅れを軽減するためには普遍的なスクリーニングが必要である。
本稿では,早期スクリーニングシステムであるRareAlertについて紹介する。
RareAlertは10のLLMによって生成された推論を統合し、機械学習を使用してこれらの信号をキャラブレートと重み付けし、整列した推論を単一のローカルデプロイ可能なモデルに置き換える。
RareAlertの開発と評価のために、33のOrphanet病カテゴリと7000以上の稀な疾患を対象とする158,666件の実際のデータセットであるRareBenchをキュレートした。
以上の結果から, 一般的な患者集団に適用される普遍的不確実性解消プロセスとして, 稀な疾患の同定が再認識可能であることが示唆された。
独立したテストセットでは、Qwen3-4BをベースとしたQwen3-4BベースのモデルであるRareAlertが0.917のAUCを達成し、GPT-5、DeepSeek-R1、Claude-3.7-Sonnet、o3-mini、Gemini-2.5-Pro、Qwen3-235Bなど、最高の機械学習アンサンブルを達成した。
これらの結果から, LLM医学的推論の多様性と, 極めて不確実な臨床作業において, それらの推論を整合させることの有効性が示唆された。
キャリブレーションされた推論をひとつのモデルに組み込むことで、RareAlertは大規模ローカルデプロイメントに適した正確でプライバシ保護、スケーラブルなレアな疾患リスクスクリーニングを可能にする。
関連論文リスト
- An Explainable Hybrid AI Framework for Enhanced Tuberculosis and Symptom Detection [55.35661671061754]
結核は、特に資源に制限された遠隔地において、重要な世界的な健康問題である。
本稿では, 胸部X線による疾患および症状の検出を, 2つの頭部と自己監督頭部を統合することで促進する枠組みを提案する。
本モデルでは, 新型コロナウイルス, 結核, 正常症例の鑑別で98.85%の精度が得られ, マルチラベル症状検出では90.09%のマクロF1スコアが得られた。
論文 参考訳(メタデータ) (2025-10-21T17:18:55Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - AI-based Anomaly Detection for Clinical-Grade Histopathological Diagnostics [24.833696455985795]
臨床では、病気はほとんどないが、ほとんどの疾患は少ない。
現在のAIモデルは、これらの病気を見落としたり、分類ミスしたりする。
そこで本研究では,より頻度の低い疾患も検出するために,一般的な疾患からのトレーニングデータのみを必要とする深層異常検出手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T04:59:19Z) - Unsupervised Discovery of Clinical Disease Signatures Using
Probabilistic Independence [8.52372042610759]
臨床疾患の十分な正確な診断は、多くの治療失敗の原因となりうる。
本稿では,これらのパターンを確率的独立性を用いて学習し,因果性潜伏病源の医学的記録を乱すアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-08T16:41:03Z) - Diagnosis Uncertain Models For Medical Risk Prediction [80.07192791931533]
本研究は, 患者の診断にはアクセスできない, バイタルサイン, 検査値, 既往歴にアクセス可能な患者リスクモデルについて考察する。
このようなすべての原因のリスクモデルが、診断全体にわたって良い一般化を持つが、予測可能な障害モードを持つことが示される。
患者診断の不確実性から生じるリスク予測の不確実性を明示的にモデル化し,この問題に対する対策を提案する。
論文 参考訳(メタデータ) (2023-06-29T23:36:04Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。