論文の概要: AI-Powered Detection of Inappropriate Language in Medical School Curricula
- arxiv url: http://arxiv.org/abs/2508.19883v1
- Date: Wed, 27 Aug 2025 13:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.648802
- Title: AI-Powered Detection of Inappropriate Language in Medical School Curricula
- Title(参考訳): 医学教育カリキュラムにおけるAIによる不適切な言語の検出
- Authors: Chiman Salavati, Shannon Song, Scott A. Hale, Roberto E. Montenegro, Shiri Dori-Hacohen, Fabricio Murai,
- Abstract要約: 不適切な言語(IUL)とそのサブカテゴリを手動で識別することは、違法にコストがかかり非現実的である。
ラベル付きデータに微調整された小言語モデルの第一級評価を行う。
LLama-3 8B と 70B は、慎重にキュレートされたショットでも、主に SLM よりも優れています。
- 参考スコア(独自算出の注目度): 6.385207436425861
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The use of inappropriate language -- such as outdated, exclusionary, or non-patient-centered terms -- medical instructional materials can significantly influence clinical training, patient interactions, and health outcomes. Despite their reputability, many materials developed over past decades contain examples now considered inappropriate by current medical standards. Given the volume of curricular content, manually identifying instances of inappropriate use of language (IUL) and its subcategories for systematic review is prohibitively costly and impractical. To address this challenge, we conduct a first-in-class evaluation of small language models (SLMs) fine-tuned on labeled data and pre-trained LLMs with in-context learning on a dataset containing approximately 500 documents and over 12,000 pages. For SLMs, we consider: (1) a general IUL classifier, (2) subcategory-specific binary classifiers, (3) a multilabel classifier, and (4) a two-stage hierarchical pipeline for general IUL detection followed by multilabel classification. For LLMs, we consider variations of prompts that include subcategory definitions and/or shots. We found that both LLama-3 8B and 70B, even with carefully curated shots, are largely outperformed by SLMs. While the multilabel classifier performs best on annotated data, supplementing training with unflagged excerpts as negative examples boosts the specific classifiers' AUC by up to 25%, making them most effective models for mitigating harmful language in medical curricula.
- Abstract(参考訳): 不適切な言語(時代遅れ、排他的、非患者中心の用語など)の使用は、臨床訓練、患者との相互作用、健康上の結果に大きな影響を及ぼす可能性がある。
その信頼性にもかかわらず、過去数十年の間に開発された多くの材料は、現在の医療基準では不適切とみなされている例を含んでいる。
カリキュラムの内容の量を考えると、言語の不適切な使用例(IUL)とその体系的レビューのためのサブカテゴリを手作業で識別することは、違法にコストがかかり非現実的である。
この課題に対処するため,約500の文書と12,000ページを超えるデータセットを用いて,ラベル付きデータと事前学習 LLM で微調整された小言語モデル(SLM)の第一級評価を行う。
SLMでは,(1)汎用IUL分類器,(2)サブカテゴリ固有のバイナリ分類器,(3)マルチラベル分類器,(4)汎用IUL検出のための2段階階層パイプライン,次いでマルチラベル分類を考える。
LLMの場合、サブカテゴリ定義やショットを含むプロンプトのバリエーションを検討する。
LLama-3 8B と 70B は、慎重にキュレートされたショットでも、主に SLM で優れていた。
マルチラベル分類器は注釈付きデータで最善を尽くす一方で、負の例が特定の分類器のAUCを25%向上させ、医療カリキュラムにおける有害言語を緩和するための最も効果的なモデルとなっている。
関連論文リスト
- Large Language Models for Healthcare Text Classification: A Systematic Review [4.8342038441006805]
大規模言語モデル(LLM)は、自然言語処理(NLP)のアプローチを根本的に変えた。
医療分野では、臨床ノートの分析、診断コーディング、その他のタスクにおいて、正確で費用効率のよいテキスト分類が不可欠である。
医療用テキストの自動分類にLLMを活用するために多くの研究がなされている。
論文 参考訳(メタデータ) (2025-03-03T04:16:13Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Reducing Biases towards Minoritized Populations in Medical Curricular Content via Artificial Intelligence for Fairer Health Outcomes [6.080306105043096]
BRICCは、機械学習を用いて医療の生体情報を軽減するための第一級イニシアチブである。
金標準のBRICCデータセットは数年かけて開発され、12Kページ以上の教材が含まれている。
包括的コーディングガイドラインに従って、医療専門家は慎重にこれらの文書にバイアスを付与した。
論文 参考訳(メタデータ) (2024-05-21T04:11:18Z) - Natural Language Processing in Electronic Health Records in Relation to
Healthcare Decision-making: A Systematic Review [2.555168694997103]
自然言語処理は電子健康記録から臨床知見を抽出するために広く用いられている。
注釈付きデータや自動化ツール、その他の課題の欠如は、EHRに対するNLPのフル活用を妨げる。
機械学習(ML)、ディープラーニング(DL)、NLP技術を研究し、この分野の限界と機会を包括的に理解するために比較した。
論文 参考訳(メタデータ) (2023-06-22T12:10:41Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Multi-class versus One-class classifier in spontaneous speech analysis
oriented to Alzheimer Disease diagnosis [58.720142291102135]
本研究の目的は,音声信号から抽出した新しいバイオマーカーを用いて自動解析を行うことにより,ADの早期診断と重症度評価の改善に寄与することである。
外付け器とフラクタル次元の機能に関する情報を使用することで、システムの性能が向上する。
論文 参考訳(メタデータ) (2022-03-21T09:57:20Z) - Does the Magic of BERT Apply to Medical Code Assignment? A Quantitative
Study [2.871614744079523]
事前訓練されたモデルが、さらなるアーキテクチャエンジニアリングなしで医療コード予測に有用かどうかは明らかではない。
本稿では,単語間のインタラクションをキャプチャし,ラベル情報を活用する階層的な微調整アーキテクチャを提案する。
現在の傾向とは対照的に、我々は慎重に訓練された古典的なCNNは、頻繁なコードでMIMIC-IIIサブセット上の注意ベースのモデルを上回ることを実証します。
論文 参考訳(メタデータ) (2021-03-11T07:23:45Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。