論文の概要: Biomedical Interpretable Entity Representations
- arxiv url: http://arxiv.org/abs/2106.09502v1
- Date: Thu, 17 Jun 2021 13:52:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 16:11:17.763823
- Title: Biomedical Interpretable Entity Representations
- Title(参考訳): 生物医学的解釈可能なエンティティ表現
- Authors: Diego Garcia-Olano, Yasumasa Onoe, Ioana Baldini, Joydeep Ghosh, Byron
C. Wallace, Kush R. Varshney
- Abstract要約: 事前訓練された言語モデルは、エンティティ中心のNLPタスクに強力なパフォーマンスを提供する密度の高いエンティティ表現を誘導する。
これは、バイオメディシンのような重要な領域における取り込みをモデル化するための障壁となる。
我々は、バイオメディカルテキストの大規模なコーパスから、新しいエンティティ型システムとトレーニングセットを作成する。
- 参考スコア(独自算出の注目度): 40.6095537182194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models induce dense entity representations that offer
strong performance on entity-centric NLP tasks, but such representations are
not immediately interpretable. This can be a barrier to model uptake in
important domains such as biomedicine. There has been recent work on general
interpretable representation learning (Onoe and Durrett, 2020), but these
domain-agnostic representations do not readily transfer to the important domain
of biomedicine. In this paper, we create a new entity type system and training
set from a large corpus of biomedical texts by mapping entities to concepts in
a medical ontology, and from these to Wikipedia pages whose categories are our
types. From this mapping we derive Biomedical Interpretable Entity
Representations(BIERs), in which dimensions correspond to fine-grained entity
types, and values are predicted probabilities that a given entity is of the
corresponding type. We propose a novel method that exploits BIER's final sparse
and intermediate dense representations to facilitate model and entity type
debugging. We show that BIERs achieve strong performance in biomedical tasks
including named entity disambiguation and entity label classification, and we
provide error analysis to highlight the utility of their interpretability,
particularly in low-supervision settings. Finally, we provide our induced 68K
biomedical type system, the corresponding 37 million triples of derived data
used to train BIER models and our best performing model.
- Abstract(参考訳): 事前訓練された言語モデルは、エンティティ中心のNLPタスクに強いパフォーマンスを提供する密度の高いエンティティ表現を誘導するが、そのような表現はすぐに解釈できない。
これは、バイオメディシンのような重要な領域における取り込みをモデル化するための障壁となる。
一般的な解釈可能な表現学習に関する最近の研究(onoe and durrett, 2020)があるが、これらのドメインに依存しない表現は、バイオメディシンの重要な領域に容易に移行できない。
本稿では,医療オントロジーにおける概念にエンティティをマッピングすることで,バイオメディカルテキストの大規模なコーパスから新たなエンティティ型システムとトレーニングセットを作成し,そのカテゴリが我々のタイプであるウィキペディアページへと移行する。
このマッピングから、次元がきめ細かいエンティティタイプに対応する生体医学的解釈可能なエンティティ表現(biers)が導出され、与えられたエンティティが対応する型である確率が予測される。
本稿では,BIERの最終スパース表現と中間密度表現を利用して,モデルおよびエンティティタイプデバッグを容易にする手法を提案する。
本研究では, 生体医学的な課題において, 名前付きエンティティの曖昧さやエンティティラベルの分類などにおいて, biers が強力な性能を発揮することを示し, 特に低スーパービジョン設定において, 解釈可能性の有用性を強調する誤り解析を行う。
最後に、誘導型68Kバイオメディカルタイプシステム、BIERモデルのトレーニングに使用される3700万の導出データ、最高のパフォーマンスモデルを提供する。
関連論文リスト
- Multi-level biomedical NER through multi-granularity embeddings and
enhanced labeling [3.8599767910528917]
本稿では,複数のモデルの強みを統合するハイブリッドアプローチを提案する。
BERTは、文脈化された単語の埋め込み、文字レベルの情報キャプチャのための事前訓練されたマルチチャネルCNN、およびテキスト内の単語間の依存関係のシーケンスラベリングとモデル化のためのBiLSTM + CRFを提供する。
我々は、ベンチマークi2b2/2010データセットを用いて、F1スコア90.11を達成する。
論文 参考訳(メタデータ) (2023-12-24T21:45:36Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Biomedical Language Models are Robust to Sub-optimal Tokenization [30.175714262031253]
現代のバイオメディカル言語モデル(LM)は、標準的なドメイン固有のトークン化器を用いて事前訓練されている。
より正確なバイオメディカルトークン化器を用いたバイオメディカルLMの事前トレーニングでは,言語モデルの実体表現品質が向上しないことがわかった。
論文 参考訳(メタデータ) (2023-06-30T13:35:24Z) - BiomedGPT: A Unified and Generalist Biomedical Generative Pre-trained Transformer for Vision, Language, and Multimodal Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - AIONER: All-in-one scheme-based biomedical named entity recognition
using deep learning [7.427654811697884]
AIONERは最先端のディープラーニングとAIOスキーマに基づく汎用BioNERツールである。
AIONERは効果的で堅牢で、マルチタスク学習のような最先端のアプローチと好適に比較できる。
論文 参考訳(メタデータ) (2022-11-30T12:35:00Z) - Recognising Biomedical Names: Challenges and Solutions [9.51284672475743]
本稿では,不連続な言及を認識可能な遷移ベースNERモデルを提案する。
また、適切な事前学習データを通知する費用対効果のアプローチも開発している。
我々の貢献は、特に新しいバイオメディカル・アプリケーションが必要な場合に、明らかな実践的意味を持つ。
論文 参考訳(メタデータ) (2021-06-23T08:20:13Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - BioALBERT: A Simple and Effective Pre-trained Language Model for
Biomedical Named Entity Recognition [9.05154470433578]
既存のBioNERアプローチはこれらの問題を無視し、最先端(SOTA)モデルを直接採用することが多い。
本稿では,大規模バイオメディカルコーパスを用いた効果的なドメイン固有言語モデルであるALBERTを提案する。
論文 参考訳(メタデータ) (2020-09-19T12:58:47Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。