論文の概要: Text Mining Drug/Chemical-Protein Interactions using an Ensemble of BERT
and T5 Based Models
- arxiv url: http://arxiv.org/abs/2111.15617v1
- Date: Tue, 30 Nov 2021 18:14:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 14:40:29.154494
- Title: Text Mining Drug/Chemical-Protein Interactions using an Ensemble of BERT
and T5 Based Models
- Title(参考訳): BERTモデルとT5モデルを用いたテキストマイニング薬・化学・タンパク質相互作用
- Authors: Virginia Adams, Hoo-Chang Shin, Carol Anderson, Bo Liu, Anas Abidin
- Abstract要約: バイオクリーティブVIIチャレンジのトラック1では、参加者が薬物と化学薬品とタンパク質の相互作用を識別するよう求められている。
本稿では,BERTに基づく文分類手法と,T5モデルを用いたより新しいテキスト・テキスト分類手法を提案する。
- 参考スコア(独自算出の注目度): 3.7462395049372894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Track-1 of the BioCreative VII Challenge participants are asked to
identify interactions between drugs/chemicals and proteins. In-context named
entity annotations for each drug/chemical and protein are provided and one of
fourteen different interactions must be automatically predicted. For this
relation extraction task, we attempt both a BERT-based sentence classification
approach, and a more novel text-to-text approach using a T5 model. We find that
larger BERT-based models perform better in general, with our BioMegatron-based
model achieving the highest scores across all metrics, achieving 0.74 F1 score.
Though our novel T5 text-to-text method did not perform as well as most of our
BERT-based models, it outperformed those trained on similar data, showing
promising results, achieving 0.65 F1 score. We believe a text-to-text approach
to relation extraction has some competitive advantages and there is a lot of
room for research advancement.
- Abstract(参考訳): バイオクリーティブVIIチャレンジのトラック1では、参加者が薬物と化学薬品とタンパク質の相互作用を識別するよう求められている。
各薬物/化学およびタンパク質のインコンテキスト名付きエンティティアノテーションが提供され、14の異なる相互作用の1つが自動的に予測されなければならない。
この関係抽出タスクでは,BERTに基づく文分類手法と,T5モデルを用いたより新しいテキスト・テキスト分類手法を併用する。
私たちのBioMegatronベースのモデルは、すべてのメトリクスで最高スコアを獲得し、0.74 F1スコアを達成しています。
我々の新しいT5テキスト・トゥ・テキスト方式はBERTベースのモデルでは性能が良くなかったが、同様のデータでトレーニングされたモデルよりも優れており、有望な結果を示し、0.65 F1のスコアを得た。
我々は、関係抽出に対するテキスト・テキスト・アプローチには競争上の優位性があり、研究の進展の余地がたくさんあると考えている。
関連論文リスト
- Enhancing Authorship Attribution through Embedding Fusion: A Novel Approach with Masked and Encoder-Decoder Language Models [0.0]
本稿では,AI生成テキストと人間認証テキストを区別するために,事前学習言語モデルからのテキスト埋め込みを用いた新しいフレームワークを提案する。
提案手法では, Embedding Fusion を用いて複数の言語モデルからの意味情報を統合し,その補完的強みを利用して性能を向上させる。
論文 参考訳(メタデータ) (2024-11-01T07:18:27Z) - Using LLMs to label medical papers according to the CIViC evidence model [0.0]
医学NLP分野におけるシーケンス分類問題CIViCエビデンスについて紹介する。
CIViCエビデンスデータセット上でBERTとRoBERTaの事前学習チェックポイントを微調整する。
上記のBERTライクなモデルとOpenAIのGPT-4を数ショットで比較する。
論文 参考訳(メタデータ) (2024-07-05T12:30:01Z) - Multi-objective Representation for Numbers in Clinical Narratives Using CamemBERT-bio [0.9208007322096533]
本研究の目的は,医学文献から抽出した数値を7つの生理カテゴリーに分類することである。
キーワード埋め込みをモデルに統合し、数に依存しない戦略を採用する、という2つの主要なイノベーションを紹介します。
従来のF1スコア0.89を上回り,CamemBERT-bioの有効性を著しく改善した。
論文 参考訳(メタデータ) (2024-05-28T01:15:21Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - BioREx: Improving Biomedical Relation Extraction by Leveraging
Heterogeneous Datasets [7.7587371896752595]
生物医学的関係抽出(RE)は、生物医学的自然言語処理(NLP)研究における中心的な課題である。
本稿では、個々のデータセットのデータの均一性を体系的に解決し、それらを大きなデータセットに組み合わせるための新しいフレームワークを提案する。
評価の結果,BioRExは個々のデータセットでトレーニングしたベンチマークシステムよりも大幅に高い性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-06-19T22:48:18Z) - Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for
Text-to-SQL Parsing [56.232873134174056]
テキストからテキストへのパースにおける大きな課題の1つはドメインの一般化である。
そこで本研究では,テキスト・トゥ・テキスト・パーシングのための特殊なコンポーネントを備えた事前学習されたテキスト・ツー・テキスト・トランスフォーマー・モデルをさらに強化する方法について検討する。
この目的のために,レイヤを持つグラフ認識モデルによって拡張された新しいアーキテクチャ GRAPHIX-T5 を提案する。
論文 参考訳(メタデータ) (2023-01-18T13:29:05Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - Text Embeddings by Weakly-Supervised Contrastive Pre-training [98.31785569325402]
E5は最先端のテキスト埋め込みのファミリーであり、幅広いタスクにうまく転送される。
E5は、テキストの単一ベクトル表現を必要とするタスクに対して、汎用的な埋め込みモデルとして簡単に使用できる。
論文 参考訳(メタデータ) (2022-12-07T09:25:54Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - CU-UD: text-mining drug and chemical-protein interactions with ensembles
of BERT-based models [12.08949974675794]
BioCreative VII track 1 DrugProt taskは、PubMedの抽象化における化学物質/ドラッグと遺伝子/タンパク質の関係を自動的に検出できるシステムの開発と評価を促進することを目的としている。
本稿では,複数のBERT言語モデルを含むアンサンブルシステムについて述べる。
F1スコア0.7739の精度で0.7708、リコール0.7770を取得し、BERTに基づく言語モデルのアンサンブルを用いて、化学物質とタンパク質の関係を自動的に検出する効果を実証した。
論文 参考訳(メタデータ) (2021-11-11T13:55:21Z) - mT6: Multilingual Pretrained Text-to-Text Transformer with Translation
Pairs [51.67970832510462]
翻訳ペア(mt6)を用いた多言語テキスト間トランスフォーマーの改良
本研究では,機械翻訳,翻訳ペアスパン破壊,翻訳スパン破壊という3つの言語間事前学習タスクについて検討した。
実験の結果,mT6はmT5よりも舌間移動性が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-18T03:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。