論文の概要: Biomedical Entity Linking with Triple-aware Pre-Training
- arxiv url: http://arxiv.org/abs/2308.14429v1
- Date: Mon, 28 Aug 2023 09:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 14:41:33.640133
- Title: Biomedical Entity Linking with Triple-aware Pre-Training
- Title(参考訳): バイオメディカルエンティティとトリプルアウェアプレトレーニング
- Authors: Xi Yan, Cedric M\"oller and Ricardo Usbeck
- Abstract要約: 我々は,KGから合成したコーパスを用いて,強力な大規模言語モデル(LLM)を事前学習するフレームワークを提案する。
評価では、同義語、記述、関係情報を含む利点を確認できない。
- 参考スコア(独自算出の注目度): 7.536753993136013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linking biomedical entities is an essential aspect in biomedical natural
language processing tasks, such as text mining and question answering. However,
a difficulty of linking the biomedical entities using current large language
models (LLM) trained on a general corpus is that biomedical entities are
scarcely distributed in texts and therefore have been rarely seen during
training by the LLM. At the same time, those LLMs are not aware of high level
semantic connection between different biomedical entities, which are useful in
identifying similar concepts in different textual contexts. To cope with
aforementioned problems, some recent works focused on injecting knowledge graph
information into LLMs. However, former methods either ignore the relational
knowledge of the entities or lead to catastrophic forgetting. Therefore, we
propose a novel framework to pre-train the powerful generative LLM by a corpus
synthesized from a KG. In the evaluations we are unable to confirm the benefit
of including synonym, description or relational information.
- Abstract(参考訳): バイオメディカルエンティティのリンクは、テキストマイニングや質問応答といったバイオメディカル自然言語処理タスクにおいて重要な側面である。
しかし、一般的なコーパスで訓練された現在の大規模言語モデル(LLM)を用いて生物医学的な実体をリンクすることの難しさは、生物医学的な実体がテキストにほとんど分散されていないため、LCMによるトレーニング中にはほとんど見られていないことである。
同時に、これらのllmは、異なる生物医学的実体間のハイレベルな意味的関係を意識していない。
上記の問題に対処するため、最近の研究は知識グラフ情報をLSMに注入することに焦点を当てている。
しかし、古い手法は実体の関連知識を無視したり、破滅的な忘れを招いたりする。
そこで本研究では,KGから合成したコーパスを用いて,強力な生成LDMを事前学習するための新しい枠組みを提案する。
評価では、同義語、説明、関係情報を含む利点は確認できない。
関連論文リスト
- Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - PromptLink: Leveraging Large Language Models for Cross-Source Biomedical Concept Linking [20.890596696992727]
大規模言語モデル(LLM)は多様な生体医学的NLPタスクにおいて顕著な結果を示した。
LLMは、高コスト、コンテキスト長の制限、信頼性の低い予測などの問題に悩まされる。
本研究では,新しいバイオメディカルな概念リンクフレームワークであるPromptLinkを提案する。
論文 参考訳(メタデータ) (2024-05-13T06:36:30Z) - Biomedical Entity Linking as Multiple Choice Question Answering [48.74212158495695]
本稿では,バイオメディカルエンティティリンクを複数問合せ回答として扱う新モデルであるBioELQAを提案する。
まず、高速検索器を用いて候補エンティティを取得し、生成器に参照と候補エンティティを共同で提示し、選択したエンティティに関連付けられた予測シンボルを出力する。
長い尾を持つエンティティの一般化を改善するため、類似したラベル付きトレーニングインスタンスを手がかりとして検索し、ジェネレータの検索インスタンスで入力する。
論文 参考訳(メタデータ) (2024-02-23T08:40:38Z) - Graph-Based Retriever Captures the Long Tail of Biomedical Knowledge [2.2814097119704058]
大規模言語モデル(LLM)は、膨大な知識を要約して提示することで、情報の検索方法を変えつつある。
LLMはトレーニングセットから最も頻繁に見られる情報を強調し、まれな情報を無視する傾向があります。
本稿では,これらのクラスタをダウンサンプリングし,情報過負荷問題を緩和するために知識グラフを活用する新しい情報検索手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:31:11Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models [1.9665865095034865]
関係抽出タスクを大言語モデルのバイナリ分類として定式化する。
メインタイトルをテールエンティティとして指定し、コンテキストに明示的に組み込む。
長い内容はテキストチャンクにスライスされ、埋め込みされ、追加の埋め込みモデルで検索される。
論文 参考訳(メタデータ) (2023-12-13T16:43:41Z) - Biomedical Language Models are Robust to Sub-optimal Tokenization [30.175714262031253]
現代のバイオメディカル言語モデル(LM)は、標準的なドメイン固有のトークン化器を用いて事前訓練されている。
より正確なバイオメディカルトークン化器を用いたバイオメディカルLMの事前トレーニングでは,言語モデルの実体表現品質が向上しないことがわかった。
論文 参考訳(メタデータ) (2023-06-30T13:35:24Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。
毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。
生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。
我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文 参考訳(メタデータ) (2021-09-27T17:00:14Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - Biomedical Entity Linking with Contrastive Context Matching [5.2710726359379265]
バイオメディカルエンティティリンクのための対照的な学習フレームワークであるBioCoMを紹介する。
生のPubMed記事から辞書マッチングによるトレーニングインスタンスを構築する。
最寄りのサーチにより,生物医学の正規化を推論時に予測する。
論文 参考訳(メタデータ) (2021-06-14T16:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。