論文の概要: AMNESIA: A Large Scale Medical Unlearning Benchmark Suite with Disease-Informed Analysis
- arxiv url: http://arxiv.org/abs/2605.30599v1
- Date: Thu, 28 May 2026 21:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.252762
- Title: AMNESIA: A Large Scale Medical Unlearning Benchmark Suite with Disease-Informed Analysis
- Title(参考訳): AMNESIA:疾病情報分析を用いた大規模医用アンラーニングベンチマークスイート
- Authors: Saeedeh Davoudi, Reihaneh Iranmanesh, Ophir Frieder, Nazli Goharian,
- Abstract要約: 医用アンラーニングのための,最初の大規模オープンソースベンチマークであるAMNESIAを紹介する。
ランダムな患者と疾患レベルの両方で広く使われている4つの未学習手法を評価する。
未学習の患者は、同じ症状の他人の知識を侵食し、患者と共有臨床知識をよりよく分離できる方法を求める。
- 参考スコア(独自算出の注目度): 10.933595109116768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical knowledge is continuously evolving. This creates a need to update or selectively forget information encoded in already-trained medical LLMs. Machine unlearning aims to remove the influence of specific training data from a model without full retraining. Yet, existing unlearning benchmarks rely on synthetic or small-scale general data, leaving clinical unlearning understudied. We introduce AMNESIA, the first large-scale, open source benchmark for medical unlearning, with 70,560 question-answer pairs from 8,820 patient notes across 11 disease categories. AMNESIA includes both factual questions testing direct recall and reasoning questions testing clinical inference. We use it to evaluate four widely used unlearning methods at both random patient and disease-level, and introduce a new metric for detecting leakage of medical terminology. We show that unlearning individual patients erodes knowledge of others with the same condition, calling for methods that can better separate patients from shared clinical knowledge.
- Abstract(参考訳): 医学知識は継続的に進化している。
これにより、既に訓練済みの医療用LLMにエンコードされた情報を更新または選択的に忘れる必要性が生じる。
機械学習は、モデルから特定のトレーニングデータの影響を、完全なリトレーニングなしで取り除くことを目的としている。
しかし、既存のアンラーニングベンチマークは、合成または小規模の一般データに依存しており、臨床アンラーニングは未調査のままである。
AMNESIAは、医学的アンラーニングのための最初の大規模オープンソースベンチマークであり、11の疾患カテゴリで8,820の患者ノートから70,560対の質問回答ペアが提供されている。
AMNESIAには、直接リコールをテストする事実質問と、臨床推論をテストする推論質問の両方が含まれている。
ランダムな患者と疾患レベルの両方で広く使われている4つの未学習手法の評価に使用し、医療用語の漏洩を検出するための新しい指標を導入する。
未学習の患者は、同じ症状の他人の知識を侵食し、患者と共有臨床知識をよりよく分離できる方法を求める。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Facts Fade Fast: Evaluating Memorization of Outdated Medical Knowledge in Large Language Models [23.266037521209796]
大規模言語モデルは、医学研究者や医師を支援することで、医療を強化する可能性を示している。
静的トレーニングデータへの依存は、新しい研究や開発と共に医療レコメンデーションが進化する際の大きなリスクである。
論文 参考訳(メタデータ) (2025-09-04T15:17:50Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Handling missing values in clinical machine learning: Insights from an expert study [10.637366819633302]
Inherently Interpretable Machine Learning (IML)モデルは、臨床的意思決定に有用なサポートを提供する。
計算不能や不完全なレコードの破棄といった従来のアプローチは、テスト時にデータが欠落しているシナリオでは現実的ではないことが多い。
フランスの29の外傷センターから55名の臨床医を調査し、3つのIMLモデルとの相互作用について検討した。
論文 参考訳(メタデータ) (2024-11-14T17:02:41Z) - FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection [83.54960238236548]
FEDMEKIはデータのプライバシーを守るだけでなく、医療基盤モデルの能力を高める。
FEDMEKIは、医療ファンデーションモデルに対して、直接データを公開することなく、幅広い医療知識から学ぶことを可能にする。
論文 参考訳(メタデータ) (2024-08-17T15:18:56Z) - README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP [9.432205523734707]
医療用語を患者に親しみやすい平易な言語に簡略化することを目的とした,レイ定義の自動生成という新たなタスクを導入する。
このデータセットは、5万以上のユニークな(医療用語、日常の定義)ペアと30万の言及からなる。
また、データフィルタリング、拡張、選択を相乗化してデータ品質を改善する、データ中心のHuman-AIパイプラインも開発しました。
論文 参考訳(メタデータ) (2023-12-24T23:01:00Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing [62.9062883851246]
機械学習は医療の改善に大いに貢献するが、その利用が健康格差を広めたり増幅したりしないことを確実にすることは重要である。
アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータにおける不適切な相関に基づいてMLモデルが予測した時に発生する。
マルチタスク学習を用いて,臨床MLシステムの公平性評価の一環として,ショートカット学習の評価と緩和を行う手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:35:38Z) - Multi-confound regression adversarial network for deep learning-based
diagnosis on highly heterogenous clinical data [1.2891210250935143]
我々は、高度に異種な臨床データに基づいてディープラーニングモデルを訓練するための新しいディープラーニングアーキテクチャ、MUCRANを開発した。
われわれは、2019年以前にマサチューセッツ総合病院から収集した16,821個の臨床T1軸性脳MRIを用いてMUCRANを訓練した。
このモデルでは,新たに収集したデータに対して90%以上の精度で頑健な性能を示した。
論文 参考訳(メタデータ) (2022-05-05T18:39:09Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。