論文の概要: Biomedical Language Models are Robust to Sub-optimal Tokenization
- arxiv url: http://arxiv.org/abs/2306.17649v3
- Date: Mon, 10 Jul 2023 16:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 10:19:58.459509
- Title: Biomedical Language Models are Robust to Sub-optimal Tokenization
- Title(参考訳): バイオメディカル言語モデルは準最適トークン化にロバストである
- Authors: Bernal Jim\'enez Guti\'errez, Huan Sun, Yu Su
- Abstract要約: 現代のバイオメディカル言語モデル(LM)は、標準的なドメイン固有のトークン化器を用いて事前訓練されている。
より正確なバイオメディカルトークン化器を用いたバイオメディカルLMの事前トレーニングでは,言語モデルの実体表現品質が向上しないことがわかった。
- 参考スコア(独自算出の注目度): 30.175714262031253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As opposed to general English, many concepts in biomedical terminology have
been designed in recent history by biomedical professionals with the goal of
being precise and concise. This is often achieved by concatenating meaningful
biomedical morphemes to create new semantic units. Nevertheless, most modern
biomedical language models (LMs) are pre-trained using standard domain-specific
tokenizers derived from large scale biomedical corpus statistics without
explicitly leveraging the agglutinating nature of biomedical language. In this
work, we first find that standard open-domain and biomedical tokenizers are
largely unable to segment biomedical terms into meaningful components.
Therefore, we hypothesize that using a tokenizer which segments biomedical
terminology more accurately would enable biomedical LMs to improve their
performance on downstream biomedical NLP tasks, especially ones which involve
biomedical terms directly such as named entity recognition (NER) and entity
linking. Surprisingly, we find that pre-training a biomedical LM using a more
accurate biomedical tokenizer does not improve the entity representation
quality of a language model as measured by several intrinsic and extrinsic
measures such as masked language modeling prediction (MLM) accuracy as well as
NER and entity linking performance. These quantitative findings, along with a
case study which explores entity representation quality more directly, suggest
that the biomedical pre-training process is quite robust to instances of
sub-optimal tokenization.
- Abstract(参考訳): 一般英語とは対照的に、バイオメディカル用語学の多くの概念は、正確で簡潔なことを目標として、近年のバイオメディカル専門家によって設計された。
これはしばしば、意味のある生体形態を結合して新しい意味単位を作成することで達成される。
しかしながら、現代のほとんどのバイオメディカル言語モデル(LM)は、バイオメディカル言語の凝集特性を明示的に活用することなく、大規模バイオメディカルコーパス統計から派生した標準ドメイン固有のトークン化剤を用いて事前訓練されている。
本研究では,バイオメディカルな用語を意味のある構成要素に分割できない標準オープンドメインとバイオメディカルなトークン化剤について述べる。
そこで, バイオメディカル用語をより正確に区分するトークン化装置を用いることで, 下流のバイオメディカルNLPタスク, 特に名前付きエンティティ認識(NER)やエンティティリンクなどのバイオメディカル用語を直接含むタスクにおいて, バイオメディカルLMの性能を向上させることができると仮定した。
驚くべきことに、より正確なバイオメディカルトークンを使用して生体医学的lmを事前トレーニングすることは、マスク言語モデリング予測(mlm)の精度やnerおよびエンティティリンクのパフォーマンスといったいくつかの本質的および極端的な尺度で測定されるように、言語モデルのエンティティ表現品質を改善するものではない。
これらの定量的研究は、実体表現の質をより直接的に探求するケーススタディとともに、生物医学的な事前学習プロセスが準最適トークン化の事例に対して非常に堅牢であることを示している。
関連論文リスト
- Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - BiomedGPT: A Unified and Generalist Biomedical Generative Pre-trained Transformer for Vision, Language, and Multimodal Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Detecting Idiomatic Multiword Expressions in Clinical Terminology using
Definition-Based Representation Learning [12.30055843580139]
バイオメディカルなMWEの慣用性を評価するための有効なツールを開発し,それらのMWEの意味表現とそれらの構成成分の表現の重み付け平均との類似度に基づいて評価する。
以上の結果から,BioLORDモデルは他のモデルでは再現されず,慣用的なMWEを識別する能力が強いことが示唆された。
論文 参考訳(メタデータ) (2023-05-11T13:42:58Z) - BiomedCLIP: a multimodal biomedical foundation model pretrained from
fifteen million scientific image-text pairs [48.376109878173956]
PMC-15Mは,既存のバイオメディカル・マルチモーダル・データセットよりも2桁大きい新しいデータセットである。
PMC-15Mは440万の科学論文から収集された1500万のバイオメディカル画像テキスト対を含んでいる。
PMC-15Mに基づいて,生物医学的視覚言語処理に適したドメイン固有適応を備えた多モーダル基礎モデルであるBiomedCLIPを事前訓練した。
論文 参考訳(メタデータ) (2023-03-02T02:20:04Z) - BioGPT: Generative Pre-trained Transformer for Biomedical Text
Generation and Mining [140.61707108174247]
本稿では,大規模生物医学文献に基づいて事前学習したドメイン固有生成型トランスフォーマー言語モデルであるBioGPTを提案する。
BC5CDRでは44.98%、38.42%、40.76%のF1スコア、KD-DTIとDDIの関係抽出タスクでは78.2%、PubMedQAでは78.2%の精度が得られた。
論文 参考訳(メタデータ) (2022-10-19T07:17:39Z) - Pre-trained Language Models in Biomedical Domain: A Systematic Survey [33.572502204216256]
プレトレーニング言語モデル(PLM)は、ほとんどの自然言語処理(NLP)タスクのデファクトパラダイムである。
本稿では,生物医学領域における事前学習言語モデルの最近の進歩とその生物医学的下流タスクへの応用について要約する。
論文 参考訳(メタデータ) (2021-10-11T05:30:30Z) - Biomedical Interpretable Entity Representations [40.6095537182194]
事前訓練された言語モデルは、エンティティ中心のNLPタスクに強力なパフォーマンスを提供する密度の高いエンティティ表現を誘導する。
これは、バイオメディシンのような重要な領域における取り込みをモデル化するための障壁となる。
我々は、バイオメディカルテキストの大規模なコーパスから、新しいエンティティ型システムとトレーニングセットを作成する。
論文 参考訳(メタデータ) (2021-06-17T13:52:10Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Biomedical Entity Linking with Contrastive Context Matching [5.2710726359379265]
バイオメディカルエンティティリンクのための対照的な学習フレームワークであるBioCoMを紹介する。
生のPubMed記事から辞書マッチングによるトレーニングインスタンスを構築する。
最寄りのサーチにより,生物医学の正規化を推論時に予測する。
論文 参考訳(メタデータ) (2021-06-14T16:43:33Z) - BioALBERT: A Simple and Effective Pre-trained Language Model for
Biomedical Named Entity Recognition [9.05154470433578]
既存のBioNERアプローチはこれらの問題を無視し、最先端(SOTA)モデルを直接採用することが多い。
本稿では,大規模バイオメディカルコーパスを用いた効果的なドメイン固有言語モデルであるALBERTを提案する。
論文 参考訳(メタデータ) (2020-09-19T12:58:47Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。