論文の概要: Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization
- arxiv url: http://arxiv.org/abs/2305.13066v2
- Date: Fri, 13 Oct 2023 11:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 17:46:05.254705
- Title: Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization
- Title(参考訳): 辞書に基づく同期一般化による生物医学的名前付きエンティティ認識
- Authors: Zihao Fu, Yixuan Su, Zaiqiao Meng, Nigel Collier
- Abstract要約: 本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
- 参考スコア(独自算出の注目度): 51.89486520806639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical named entity recognition is one of the core tasks in biomedical
natural language processing (BioNLP). To tackle this task, numerous
supervised/distantly supervised approaches have been proposed. Despite their
remarkable success, these approaches inescapably demand laborious human effort.
To alleviate the need of human effort, dictionary-based approaches have been
proposed to extract named entities simply based on a given dictionary. However,
one downside of existing dictionary-based approaches is that they are
challenged to identify concept synonyms that are not listed in the given
dictionary, which we refer as the synonym generalization problem. In this
study, we propose a novel Synonym Generalization (SynGen) framework that
recognizes the biomedical concepts contained in the input text using span-based
predictions. In particular, SynGen introduces two regularization terms, namely,
(1) a synonym distance regularizer; and (2) a noise perturbation regularizer,
to minimize the synonym generalization error. To demonstrate the effectiveness
of our approach, we provide a theoretical analysis of the bound of synonym
generalization error. We extensively evaluate our approach on a wide range of
benchmarks and the results verify that SynGen outperforms previous
dictionary-based models by notable margins. Lastly, we provide a detailed
analysis to further reveal the merits and inner-workings of our approach.
- Abstract(参考訳): バイオメディカル名称認識は、バイオメディカル自然言語処理(BioNLP)のコアタスクの1つである。
この課題に取り組むために、多くの監督/監督されたアプローチが提案されている。
その顕著な成功にもかかわらず、これらのアプローチは労力のかかる人間の努力を必然的に要求する。
人的努力の必要性を軽減するため、辞書に基づくアプローチが提案され、単に与えられた辞書に基づいて名前付きエンティティを抽出する。
しかし、既存の辞書ベースのアプローチの欠点は、与えられた辞書にリストされていない概念同義語を特定することであり、これは同義語一般化問題である。
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
特に、シンゲンは、(1)同義語距離正規化子、(2)雑音摂動正規化子という2つの正規化項を導入し、同義語一般化誤差を最小化する。
提案手法の有効性を示すため,同義語一般化誤差の境界に関する理論的解析を行った。
提案手法を幅広いベンチマークで広範囲に評価し,その結果から,従来の辞書モデルに比較してsyngenが有意なマージンを示した。
最後に、我々のアプローチのメリットと内部作業をさらに明らかにするために、詳細な分析を提供する。
関連論文リスト
- Bi-Encoders based Species Normalization -- Pairwise Sentence Learning to
Rank [0.0]
本稿では、名前付きエンティティ正規化のための新しい深層学習手法を提案し、問題をランク付けするペアワイズ学習として扱う。
本研究は,種の実体型に関する実験を行い,その手法を最先端技術に対して評価する。
論文 参考訳(メタデータ) (2023-10-22T17:30:16Z) - Unsupervised Syntactically Controlled Paraphrase Generation with
Abstract Meaning Representations [59.10748929158525]
抽象表現(AMR)は、教師なし構文制御されたパラフレーズ生成の性能を大幅に向上させることができる。
提案モデルであるAMRPGは,AMRグラフを符号化し,入力文を2つの非絡み合った意味的および構文的埋め込みに解析する。
実験により、AMRPGは既存の教師なしアプローチと比較して、定量的かつ質的に、より正確な構文制御されたパラフレーズを生成することが示された。
論文 参考訳(メタデータ) (2022-11-02T04:58:38Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Generative Biomedical Entity Linking via Knowledge Base-Guided
Pre-training and Synonyms-Aware Fine-tuning [0.8154691566915505]
バイオメディカル・エンティティ・リンク(EL)のモデル化のための生成的アプローチを提案する。
そこで本研究では,KBの同義語と定義を用いた合成サンプルの構築により,KB指導による事前学習を提案する。
また、学習のための概念名を選択するためのシノニム対応の微調整を提案し、推論のためにデコーダプロンプトとマルチシンノニム制約付きプレフィックスツリーを提案する。
論文 参考訳(メタデータ) (2022-04-11T14:50:51Z) - Semantic Search for Large Scale Clinical Ontologies [63.71950996116403]
本稿では,大規模臨床語彙検索システムを構築するための深層学習手法を提案する。
本稿では,意味学習データに基づくトレーニングデータを生成するTriplet-BERTモデルを提案する。
このモデルは,5つの実ベンチマークデータセットを用いて評価され,提案手法は自由テキストから概念,概念まで,概念語彙の検索において高い結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-01T05:15:42Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - End-to-end Biomedical Entity Linking with Span-based Dictionary Matching [5.273138059454523]
病名認識と正常化は、生物医学的なテキストマイニングの基本的なプロセスです。
本研究では,スパン表現と辞書マッチング機能を組み合わせた新しいエンドツーエンドアプローチを提案する。
我々のモデルは、ニューラルネットワークモデルの性能を維持しながら辞書を参照することで、目に見えない概念を扱う。
論文 参考訳(メタデータ) (2021-04-21T12:24:12Z) - BBAEG: Towards BERT-based Biomedical Adversarial Example Generation for
Text Classification [1.14219428942199]
バイオメディカルテキスト分類のためのブラックボックス攻撃アルゴリズムであるBBAEG(Biomedical BERT-based Adversarial Example Generation)を提案する。
我々は,BBAEGがより優れた言語流布,セマンティック・コヒーレンス(セマンティック・コヒーレンス)でより強力な攻撃を行うことを示す。
論文 参考訳(メタデータ) (2021-04-05T05:32:56Z) - PhenoTagger: A Hybrid Method for Phenotype Concept Recognition using
Human Phenotype Ontology [6.165755812152143]
PhenoTaggerは、辞書と機械学習に基づく手法を組み合わせて、構造化されていないテキストの概念を認識するハイブリッド手法である。
提案手法は2つのHPOコーパスを用いて検証し,PhenoTaggerが従来の手法と比較した。
論文 参考訳(メタデータ) (2020-09-17T18:00:43Z) - Detecting and Understanding Generalization Barriers for Neural Machine
Translation [53.23463279153577]
本稿では,未知の入力文内での一般化バリアワードの同定と理解を試みる。
本稿では,一般化バリアワードの原理的定義と,計算において抽出可能な修正版を提案する。
次に、Zh$Leftrightarrow$En NISTベンチマークで検出された一般化障壁ワードについて広範な解析を行う。
論文 参考訳(メタデータ) (2020-04-05T12:33:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。