論文の概要: Towards Robust and Fair Next Visit Diagnosis Prediction under Noisy Clinical Notes with Large Language Models
- arxiv url: http://arxiv.org/abs/2511.18393v1
- Date: Sun, 23 Nov 2025 10:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.817363
- Title: Towards Robust and Fair Next Visit Diagnosis Prediction under Noisy Clinical Notes with Large Language Models
- Title(参考訳): 大規模言語モデルによる騒々しい臨床ノートのロバスト, 次回来訪診断予測に向けて
- Authors: Heejoon Koo,
- Abstract要約: 本稿では,多種多様なテキスト破損シナリオ下での最先端の大規模言語モデル(LLM)の体系的研究について述べる。
臨床に根ざしたラベル推論手法と,臨床医の推論をエミュレートする階層的チェーン・オブ・シント(CoT)戦略を導入する。
- 参考スコア(独自算出の注目度): 4.56877715768796
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A decade of rapid advances in artificial intelligence (AI) has opened new opportunities for clinical decision support systems (CDSS), with large language models (LLMs) demonstrating strong reasoning abilities on timely medical tasks. However, clinical texts are often degraded by human errors or failures in automated pipelines, raising concerns about the reliability and fairness of AI-assisted decision-making. Yet the impact of such degradations remains under-investigated, particularly regarding how noise-induced shifts can heighten predictive uncertainty and unevenly affect demographic subgroups. We present a systematic study of state-of-the-art LLMs under diverse text corruption scenarios, focusing on robustness and equity in next-visit diagnosis prediction. To address the challenge posed by the large diagnostic label space, we introduce a clinically grounded label-reduction scheme and a hierarchical chain-of-thought (CoT) strategy that emulates clinicians' reasoning. Our approach improves robustness and reduces subgroup instability under degraded inputs, advancing the reliable use of LLMs in CDSS. We release code at https://github.com/heejkoo9/NECHOv3.
- Abstract(参考訳): 人工知能(AI)の10年にわたる急速な進歩により、臨床意思決定支援システム(CDSS)の新たな機会が開かれ、大きな言語モデル(LLM)は、タイムリーな医療タスクに対する強力な推論能力を示している。
しかし、臨床テキストは自動パイプラインにおけるヒューマンエラーや失敗によって劣化し、AI支援による意思決定の信頼性と公平性に関する懸念を提起することが多い。
しかし、こうした劣化の影響は、特にノイズによって引き起こされる変化が予測的不確実性を高め、人口集団に不均一に影響を及ぼすかについて、未解明のままである。
本稿では,次世代の診断予測におけるロバストネスとエクイティに着目し,多種多様なテキスト破損シナリオ下での最先端LCMの体系的研究を行う。
大規模診断ラベル空間がもたらす課題に対処するために,臨床に根ざしたラベル推論手法と,臨床医の推論をエミュレートする階層的チェーン・オブ・シント(CoT)戦略を導入する。
提案手法は,CDSSにおけるLCMの信頼性向上を図るとともに,ロバスト性の向上と,劣化した入力下でのサブグループ不安定性の低減を図る。
私たちはhttps://github.com/heejkoo9/NECHOv3でコードをリリースします。
関連論文リスト
- Exploring Membership Inference Vulnerabilities in Clinical Large Language Models [42.52690697965999]
臨床大言語モデル(LLM)におけるメンバーシップ推論脆弱性の探索的研究について述べる。
最新の臨床質問応答モデルであるLlemrを用いて、標準的損失に基づく攻撃とドメインを動機としたパラフレージングに基づく摂動戦略の両方を評価する。
その結果は、コンテキスト認識、ドメイン固有のプライバシ評価、防衛の継続的な開発を動機付けている。
論文 参考訳(メタデータ) (2025-10-21T14:27:48Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Ensemble Deep Learning and LLM-Assisted Reporting for Automated Skin Lesion Diagnosis [2.9307254086347427]
皮膚科診断のためのAI統合を再定義する統合フレームワークを導入する。
第一に、アーキテクチャ的に多様である畳み込みニューラルネットワークの目的的にヘテロジニアスなアンサンブルは、相補的な診断の視点を提供する。
第2に、診断ワークフローに直接大きな言語モデル機能を組み込んで、分類出力を臨床的に意味のある評価に変換する。
論文 参考訳(メタデータ) (2025-10-05T08:07:33Z) - Revisiting Rule-Based Stuttering Detection: A Comprehensive Analysis of Interpretable Models for Clinical Applications [5.692357910541593]
本稿では,ルールに基づく散乱検出システムについて包括的な解析を行う。
本稿では,発話速度正規化,マルチレベル音響特徴分析,階層的決定構造を組み込んだルールベースフレームワークを提案する。
規則に基づくシステムは特に延長検出(97~99%の精度)に優れ、様々な発話速度で安定した性能を提供することを示した。
論文 参考訳(メタデータ) (2025-08-21T15:01:05Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Embeddings to Diagnosis: Latent Fragility under Agentic Perturbations in Clinical LLMs [0.0]
本稿では, 臨床用LDMの潜在ロバスト性について, 構造的対向編集による検討を行うLAPD (Latent Agentic Perturbation Diagnostics) を提案する。
本フレームワークでは,PCA-Reduced Latent Spaceにクロス決定境界を埋め込む際に,表現不安定性を捉えるモデルに依存しない診断信号であるLatent Diagnosis Flip Rate (LDFR)を導入する。
その結果, 表面の堅牢性とセマンティック安定性の間には, 安全クリティカルな臨床AIにおける幾何学的監査の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-07-27T16:48:53Z) - AGIR: Assessing 3D Gait Impairment with Reasoning based on LLMs [0.0]
歩行障害は、神経変性疾患の早期診断、疾患モニタリング、治療評価において重要な役割を果たす。
近年のディープラーニングベースのアプローチは、分類精度を一貫して改善しているが、解釈可能性に欠けることが多い。
本稿では、事前訓練されたVQ-VAEモーショントークンライザと、一対のモーショントークン上で微調整されたLarge Language Model(LLM)からなる新しいパイプラインであるAGIRを紹介する。
論文 参考訳(メタデータ) (2025-03-23T17:12:16Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing [62.9062883851246]
機械学習は医療の改善に大いに貢献するが、その利用が健康格差を広めたり増幅したりしないことを確実にすることは重要である。
アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータにおける不適切な相関に基づいてMLモデルが予測した時に発生する。
マルチタスク学習を用いて,臨床MLシステムの公平性評価の一環として,ショートカット学習の評価と緩和を行う手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:35:38Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。