論文の概要: Exploring Language Patterns in a Medical Licensure Exam Item Bank
- arxiv url: http://arxiv.org/abs/2111.10501v1
- Date: Sat, 20 Nov 2021 02:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 13:29:11.141852
- Title: Exploring Language Patterns in a Medical Licensure Exam Item Bank
- Title(参考訳): 医療免許試験項目バンクにおける言語パターンの検討
- Authors: Swati Padhee, Kimberly Swygert, Ian Micir
- Abstract要約: この研究は、機械学習(ML)とNLPを使って、大きなアイテムバンク上で言語バイアスを探索する最初の試みである。
類似したアイテムステムのクラスタ上でトレーニングされた予測アルゴリズムを用いて,本手法が潜在的にバイアスのある言語に対する大きなアイテムバンクのレビューに有効であることを示す。
- 参考スコア(独自算出の注目度): 0.25782420501870296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study examines the use of natural language processing (NLP) models to
evaluate whether language patterns used by item writers in a medical licensure
exam might contain evidence of biased or stereotypical language. This type of
bias in item language choices can be particularly impactful for items in a
medical licensure assessment, as it could pose a threat to content validity and
defensibility of test score validity evidence. To the best of our knowledge,
this is the first attempt using machine learning (ML) and NLP to explore
language bias on a large item bank. Using a prediction algorithm trained on
clusters of similar item stems, we demonstrate that our approach can be used to
review large item banks for potential biased language or stereotypical patient
characteristics in clinical science vignettes. The findings may guide the
development of methods to address stereotypical language patterns found in test
items and enable an efficient updating of those items, if needed, to reflect
contemporary norms, thereby improving the evidence to support the validity of
the test scores.
- Abstract(参考訳): 本研究では, 自然言語処理モデルを用いて, 医療用ライセンス試験における項目作成者が使用する言語パターンが, バイアスのある言語やステレオタイプ言語の証拠を含むかどうかを評価する。
項目言語選択におけるこの種の偏見は、内容の妥当性とテストスコアの妥当性の検証を脅かす可能性があるため、医学的ライセンス評価の項目に特に影響を及ぼす可能性がある。
私たちの知る限りでは、これは機械学習(ML)とNLPを使用して、大きなアイテムバンクで言語バイアスを探索する最初の試みです。
提案手法は, 類似の項目を列挙して学習した予測アルゴリズムを用いて, 臨床科学における偏りのある言語や, 定型的な患者特性を評価できることを示す。
この知見は, テスト項目に見られる定型的な言語パターンに対処し, 必要に応じて, それらの項目を効率的に更新し, 現代の規範を反映し, テストスコアの妥当性を裏付けるエビデンスを改善する手法の開発を導く可能性がある。
関連論文リスト
- Textual Entailment for Effective Triple Validation in Object Prediction [4.94309218465563]
本稿では,クローズ文を用いて言語モデルから抽出した事実の検証にテキスト・エンテーメントを用いることを提案する。
本研究の結果から,テキスト・エンテーメントに基づく三重検証により,異なる学習体制における言語モデル予測が向上することが示唆された。
論文 参考訳(メタデータ) (2024-01-29T16:50:56Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Evaluating the Effectiveness of Pre-trained Language Models in
Predicting the Helpfulness of Online Product Reviews [0.21485350418225244]
オンライン製品レビューの有用性を予測するため,RoBERTaとXLM-R言語モデルの比較を行った。
実験にはAmazonレビューデータセットを使用します。
論文 参考訳(メタデータ) (2023-02-19T18:22:59Z) - Average Is Not Enough: Caveats of Multilingual Evaluation [0.0]
このような偏見を検出するためには,比較言語学による質的分析が必要であると論じる。
本稿では,本研究の結果が言語的に偏りがあることを示すとともに,onEL型データベースに基づく可視化が検出可能であることを示す。
論文 参考訳(メタデータ) (2023-01-03T18:23:42Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Do language models learn typicality judgments from text? [6.252236971703546]
認知科学における一般的な現象である典型性に関する予測言語モデル(LM)を評価する。
最初の試験は、分類学的分類群を項目に割り当てる際、典型性がLMを調節するかどうかを目標とする。
第2の試験は、アイテムに関する新しい情報をそのカテゴリに拡張する際に、LMの確率の典型性に対する感受性を調査する。
論文 参考訳(メタデータ) (2021-05-06T21:56:40Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Hurtful Words: Quantifying Biases in Clinical Contextual Word Embeddings [16.136832979324467]
本研究は,MIMIC-III 病院データセットから医療用ノートにディープ埋め込みモデル(BERT)を事前訓練する。
文脈的単語埋め込みによって捉えられる危険な潜伏関係を同定する。
我々は,50以上の下流臨床予測課題において,フェアネスの定義の異なる性能ギャップを評価する。
論文 参考訳(メタデータ) (2020-03-11T23:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。