論文の概要: MedNLI Is Not Immune: Natural Language Inference Artifacts in the
Clinical Domain
- arxiv url: http://arxiv.org/abs/2106.01491v1
- Date: Wed, 2 Jun 2021 22:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-05 04:25:04.031129
- Title: MedNLI Is Not Immune: Natural Language Inference Artifacts in the
Clinical Domain
- Title(参考訳): MedNLIは免疫ではない:臨床領域における自然言語推論アーティファクト
- Authors: Christine Herlihy and Rachel Rudinger
- Abstract要約: クラウドワーカーによって構築された自然言語推論(NLI)データセットは、統計的アーティファクトを含むことが発見されている。
臨床記録から抽出した前提付き医師注記データセットであるMedNLIには,そのようなアーティファクトが含まれているかを検討した。
ニュートラル仮説(Neutral hypothess)は、前提における条件と共起する、あるいは原因となる条件と振舞いを特徴付ける。
矛盾仮説は、前提を明確に否定し、良い健康の主張を通じて暗黙的に否定する。
- 参考スコア(独自算出の注目度): 5.353748672254215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crowdworker-constructed natural language inference (NLI) datasets have been
found to contain statistical artifacts associated with the annotation process
that allow hypothesis-only classifiers to achieve better-than-random
performance (Poliak et al., 2018; Gururanganet et al., 2018; Tsuchiya, 2018).
We investigate whether MedNLI, a physician-annotated dataset with premises
extracted from clinical notes, contains such artifacts (Romanov and Shivade,
2018). We find that entailed hypotheses contain generic versions of specific
concepts in the premise, as well as modifiers related to responsiveness,
duration, and probability. Neutral hypotheses feature conditions and behaviors
that co-occur with, or cause, the condition(s) in the premise. Contradiction
hypotheses feature explicit negation of the premise and implicit negation via
assertion of good health. Adversarial filtering demonstrates that performance
degrades when evaluated on the difficult subset. We provide partition
information and recommendations for alternative dataset construction strategies
for knowledge-intensive domains.
- Abstract(参考訳): crowdworkerが構築した自然言語推論(nli)データセットには、仮説のみの分類器がランダム以上のパフォーマンスを達成するためのアノテーションプロセスに関連する統計的アーティファクトが含まれていることが示されている(poliak et al., 2018; gururanganet et al., 2018; tsuchiya, 2018)。
臨床記録から抽出した前提付き医師注記データセットであるMedNLIには,これらのアーティファクトが含まれているかを検討した(Romanov and Shivade, 2018)。
仮説は、応答性、持続性、確率に関連する修飾子と同様に、前提において特定の概念のジェネリックバージョンを含む。
ニュートラル仮説(Neutral hypothess)は、前提における条件と共起する、あるいは原因となる条件と振舞いを特徴付ける。
矛盾仮説は、前提を明確に否定し、良い健康の主張を通じて暗黙的に否定する。
逆フィルタリングは、難しいサブセットで評価すると性能が劣化することを示す。
知識集約ドメインのための代替データセット構築戦略の分割情報とレコメンデーションを提供する。
関連論文リスト
- Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - FactPICO: Factuality Evaluation for Plain Language Summarization of
Medical Evidence [48.72670312847365]
本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
論文 参考訳(メタデータ) (2024-02-18T04:45:01Z) - Null Hypothesis Test for Anomaly Detection [0.0]
我々は、背景のみの仮説を除外した仮説テストを用いて、異常検出のための分類不要ラベルの使用を拡張した。
2つの識別されたデータセット領域の統計的独立性をテストすることで、固定された異常スコアのカットや、各領域間の背景推定の外挿に頼ることなく、背景のみの仮説を除外することができる。
論文 参考訳(メタデータ) (2022-10-05T13:03:55Z) - Robust and Agnostic Learning of Conditional Distributional Treatment
Effects [62.44901952244514]
条件平均治療効果(CATE)は、個々の因果効果の最適点予測である。
集約分析では、通常は分布処理効果(DTE)の測定によって対処される。
我々は,多種多様な問題に対して条件付きDTE(CDTE)を学習するための,新しい堅牢でモデルに依存しない手法を提供する。
論文 参考訳(メタデータ) (2022-05-23T17:40:31Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - \beta-Intact-VAE: Identifying and Estimating Causal Effects under
Limited Overlap [21.33872753593482]
生体統計学において広く用いられ,治療効果に十分である予後スコアをモデル化するために潜伏変数を用いる。
本研究では,潜伏変数が予後スコアを回復し,個々の治療効果を同定する。
個別化特徴量で条件付き処理グループにバランスのとれた表現を可能にするTEエラー境界を導出する。
論文 参考訳(メタデータ) (2021-10-11T12:43:29Z) - Encoding Domain Information with Sparse Priors for Inferring Explainable
Latent Variables [2.8935588665357077]
説明可能な因子の推論を促進するために,スパース先行の因子潜在変数モデルであるspex-LVMを提案する。
spex-LVMは、既存の生物医療経路の知識を利用して、潜在因子にアノテート属性を自動的に割り当てる。
シミュレーションおよび実シングルセルRNA-seqデータセットの評価は、本モデルが本質的に説明可能な方法で関連構造を頑健に識別することを示す。
論文 参考訳(メタデータ) (2021-07-08T10:19:32Z) - Exploring Lexical Irregularities in Hypothesis-Only Models of Natural
Language Inference [5.283529004179579]
自然言語推論(NLI)またはテキスト関連認識(RTE)は、文のペア間の関係を予測するタスクです。
包含を理解するモデルは前提と仮説の両方をエンコードするべきである。
Poliakらによる実験。
仮説でのみ観察されたパターンに対するこれらのモデルの強い好みを明らかにした。
論文 参考訳(メタデータ) (2021-01-19T01:08:06Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - Hurtful Words: Quantifying Biases in Clinical Contextual Word Embeddings [16.136832979324467]
本研究は,MIMIC-III 病院データセットから医療用ノートにディープ埋め込みモデル(BERT)を事前訓練する。
文脈的単語埋め込みによって捉えられる危険な潜伏関係を同定する。
我々は,50以上の下流臨床予測課題において,フェアネスの定義の異なる性能ギャップを評価する。
論文 参考訳(メタデータ) (2020-03-11T23:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。