論文の概要: Stress Test Evaluation of Biomedical Word Embeddings
- arxiv url: http://arxiv.org/abs/2107.11652v1
- Date: Sat, 24 Jul 2021 16:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:26:13.514117
- Title: Stress Test Evaluation of Biomedical Word Embeddings
- Title(参考訳): 生体医学的単語埋め込みのストレステスト評価
- Authors: Vladimir Araujo, Andr\'es Carvallo, Carlos Aspillaga, Camilo Thorne,
Denis Parra
- Abstract要約: 逆例を用いた3つの言語モデルを体系的に評価する。
逆行訓練により、モデルが頑健さを向上し、場合によっては本来の性能を超越する結果が得られます。
- 参考スコア(独自算出の注目度): 3.8376078864105425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of pretrained word embeddings has motivated their use in the
biomedical domain, with contextualized embeddings yielding remarkable results
in several biomedical NLP tasks. However, there is a lack of research on
quantifying their behavior under severe "stress" scenarios. In this work, we
systematically evaluate three language models with adversarial examples --
automatically constructed tests that allow us to examine how robust the models
are. We propose two types of stress scenarios focused on the biomedical named
entity recognition (NER) task, one inspired by spelling errors and another
based on the use of synonyms for medical terms. Our experiments with three
benchmarks show that the performance of the original models decreases
considerably, in addition to revealing their weaknesses and strengths. Finally,
we show that adversarial training causes the models to improve their robustness
and even to exceed the original performance in some cases.
- Abstract(参考訳): 事前訓練された単語埋め込みの成功は、バイオメディカルドメインにおける彼らの使用を動機付け、文脈的埋め込みはいくつかのバイオメディカルNLPタスクにおいて顕著な結果をもたらす。
しかし、厳しい「ストレス」シナリオ下での行動の定量化に関する研究が不足している。
本研究では,3つの言語モデルに対して,その頑健性を検証できる自動構築テスト(automatically built test)を体系的に評価する。
バイオメディカル名前付きエンティティ認識 (ner) タスクに着目したストレスシナリオとして, 綴り誤りに触発されたストレスシナリオと, 医学用語の同義語を用いたストレスシナリオの2つを提案する。
3つのベンチマークによる実験により,元のモデルの性能は著しく低下し,弱点や強度が明らかになった。
最後に, 敵対的学習はモデルの頑健さを向上させ, 場合によっては元のパフォーマンスを上回ることすらあることを示す。
関連論文リスト
- DKE-Research at SemEval-2024 Task 2: Incorporating Data Augmentation with Generative Models and Biomedical Knowledge to Enhance Inference Robustness [27.14794371879541]
本稿では,生物医学的自然言語推論のためのモデルロバスト性向上のための新しいデータ拡張手法を提案する。
意味摂動とドメイン固有の語彙置換によって合成例を生成することにより,多様性の向上とショートカット学習の削減を図る。
マルチタスク学習とDeBERTaアーキテクチャを組み合わせることで,NLI4CT 2024ベンチマークで大幅な性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-14T10:02:47Z) - Context-aware Adversarial Attack on Named Entity Recognition [15.049160192547909]
本研究では,文脈対応型対向攻撃法について検討し,モデルのロバスト性について検討する。
具体的には、エンティティを認識するために最も情報に富む単語を摂動し、敵の例を作成することを提案する。
実験と分析により,本手法は強いベースラインよりも間違った予測を下すのに有効であることが示された。
論文 参考訳(メタデータ) (2023-09-16T14:04:23Z) - BiomedGPT: A Unified and Generalist Biomedical Generative Pre-trained Transformer for Vision, Language, and Multimodal Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Assessment of contextualised representations in detecting outcome
phrases in clinical trials [14.584741378279316]
本稿では,300 PubMed の要約を専門的に注釈付けしたデータセット "EBM-COMET" を紹介する。
結果の抽出には,事前学習した文脈表現を微調整する。
ベストモデル(BioBERT)は81.5%のF1、81.3%の感度、98.0%の特異性を達成している。
論文 参考訳(メタデータ) (2022-02-13T15:08:00Z) - Self-training with Few-shot Rationalization: Teacher Explanations Aid
Student in Few-shot NLU [88.8401599172922]
タスク固有のラベルと合理的性に制限された自己学習言語モデルに基づくフレームワークを開発する。
ニューラルネットワークの性能は,その合理的な予測を意識することで,大幅に向上できることを示す。
論文 参考訳(メタデータ) (2021-09-17T00:36:46Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - As Easy as 1, 2, 3: Behavioural Testing of NMT Systems for Numerical
Translation [51.20569527047729]
誤訳された数字は、金銭的損失や医療的誤報などの深刻な影響を引き起こす可能性がある。
本研究では,ニューラルネットワーク翻訳システムの動作テストによる数値テキストへの堅牢性に関する総合的な評価法を開発した。
論文 参考訳(メタデータ) (2021-07-18T04:09:47Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Probing Pre-Trained Language Models for Disease Knowledge [38.73378973397647]
疾患知識評価のための新しいベンチマークであるDisKnEを紹介する。
トレーニングデータから、テスト疾患に関する知識を学べないよう、トレーニングとテストの分割を定義します。
提案したベンチマークを用いて,臨床・生体領域の事前学習モデルの解析を行うと,その性能は著しく低下することがわかった。
論文 参考訳(メタデータ) (2021-06-14T10:31:25Z) - On Adversarial Examples for Biomedical NLP Tasks [4.7677261488999205]
医療用NERとSTSのための2つのよく知られたデータセットに対する逆評価手法を提案する。
逆例を用いてモデルをトレーニングすることで,モデルの堅牢性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2020-04-23T13:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。