論文の概要: End-to-End Models for Chemical-Protein Interaction Extraction: Better
Tokenization and Span-Based Pipeline Strategies
- arxiv url: http://arxiv.org/abs/2304.01344v1
- Date: Mon, 3 Apr 2023 20:20:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 16:28:07.103919
- Title: End-to-End Models for Chemical-Protein Interaction Extraction: Better
Tokenization and Span-Based Pipeline Strategies
- Title(参考訳): 化学タンパク質相互作用抽出のためのエンド・ツー・エンドモデル:トークン化とスパンベースのパイプライン戦略の改善
- Authors: Xuguang Ai and Ramakanth Kavuluru
- Abstract要約: 我々は、ChemProtデータセット上で新しい最先端のE2EREパフォーマンスを生成するために、スパンベースのパイプラインアプローチを採用している。
提案手法は,E2EREにおいて,スパンベースアプローチが優れていることを示す。
- 参考スコア(独自算出の注目度): 1.782718930156674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end relation extraction (E2ERE) is an important task in information
extraction, more so for biomedicine as scientific literature continues to grow
exponentially. E2ERE typically involves identifying entities (or named entity
recognition (NER)) and associated relations, while most RE tasks simply assume
that the entities are provided upfront and end up performing relation
classification. E2ERE is inherently more difficult than RE alone given the
potential snowball effect of errors from NER leading to more errors in RE. A
complex dataset in biomedical E2ERE is the ChemProt dataset (BioCreative VI,
2017) that identifies relations between chemical compounds and genes/proteins
in scientific literature. ChemProt is included in all recent biomedical natural
language processing benchmarks including BLUE, BLURB, and BigBio. However, its
treatment in these benchmarks and in other separate efforts is typically not
end-to-end, with few exceptions. In this effort, we employ a span-based
pipeline approach to produce a new state-of-the-art E2ERE performance on the
ChemProt dataset, resulting in $> 4\%$ improvement in F1-score over the prior
best effort. Our results indicate that a straightforward fine-grained
tokenization scheme helps span-based approaches excel in E2ERE, especially with
regards to handling complex named entities. Our error analysis also identifies
a few key failure modes in E2ERE for ChemProt.
- Abstract(参考訳): エンド・ツー・エンド関係抽出(E2ERE)は情報抽出において重要な課題である。
e2ereは通常、エンティティ(または名前付きエンティティ認識(ner))と関連する関係を識別するが、ほとんどのreタスクは単にエンティティが前もって提供され、最終的に関係分類を行うと仮定する。
E2EREは、NERの雪玉効果がREにより多くの誤差をもたらす可能性を考えると、RE単独よりも本質的に困難である。
バイオメディカルE2EREの複雑なデータセットはChemProtデータセット(BioCreative VI, 2017)であり、科学文献における化学物質と遺伝子/タンパク質の関係を識別する。
ChemProtはBLUE、BLURB、BigBioを含む最近のバイオメディカル自然言語処理ベンチマークに含まれている。
しかしながら、これらのベンチマークや他の別々の取り組みでは、通常はエンドツーエンドではなく、例外が少ない。
この取り組みでは、ChemProtデータセット上で新しい最先端のE2EREパフォーマンスを生成するために、スパンベースのパイプラインアプローチを採用しています。
以上の結果から,e2ereでは,特に複雑な名前付きエンティティの扱いに関して,スパンベースのアプローチが優れていることを示す。
私たちのエラー解析では、ChemProt用のE2EREのいくつかの重要な障害モードも特定しています。
関連論文リスト
- ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - Biomedical Entity Linking as Multiple Choice Question Answering [48.74212158495695]
本稿では,バイオメディカルエンティティリンクを複数問合せ回答として扱う新モデルであるBioELQAを提案する。
まず、高速検索器を用いて候補エンティティを取得し、生成器に参照と候補エンティティを共同で提示し、選択したエンティティに関連付けられた予測シンボルを出力する。
長い尾を持つエンティティの一般化を改善するため、類似したラベル付きトレーニングインスタンスを手がかりとして検索し、ジェネレータの検索インスタンスで入力する。
論文 参考訳(メタデータ) (2024-02-23T08:40:38Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Chem-FINESE: Validating Fine-Grained Few-shot Entity Extraction through Text Reconstruction [68.76468780148734]
化学領域における微粒な数発の実体抽出は、2つの固有の課題に直面している。
Chem-FINESEには、Seq2seqエンティティ抽出器とSeq2seq自己検証モジュールの2つのコンポーネントがある。
新たに提案したフレームワークは,それぞれ8.26%,6.84%の絶対F1スコアゲインに寄与している。
論文 参考訳(メタデータ) (2024-01-18T18:20:15Z) - Comparison of pipeline, sequence-to-sequence, and GPT models for
end-to-end relation extraction: experiments with the rare disease use-case [2.9013777655907056]
エンド・ツー・エンド関係抽出(E2ERE)は、バイオメディシンにおける自然言語処理(NLP)の重要かつ現実的な応用である。
稀な疾患に焦点を絞った複雑なデータセットを用いて,E2EREの一般的なパラダイムを3つ比較した。
パイプラインモデルが依然として最善であるのに対して、シーケンス・ツー・シーケンスモデルはそれほど遅れていないことが分かっています。
論文 参考訳(メタデータ) (2023-11-22T22:52:00Z) - Relation Extraction in underexplored biomedical domains: A
diversity-optimised sampling and synthetic data generation approach [0.0]
ラベル付きデータの空間性は関係抽出モデルの開発に障害となる。
我々は、最初のキュレートされた評価データセットを作成し、LOTUSデータベースから文献項目を抽出し、トレーニングセットを構築する。
我々は,オープンな大規模言語モデルを用いた生成タスクと数ショット学習として,標準微調整の性能を評価する。
論文 参考訳(メタデータ) (2023-11-10T19:36:00Z) - BioREx: Improving Biomedical Relation Extraction by Leveraging
Heterogeneous Datasets [7.7587371896752595]
生物医学的関係抽出(RE)は、生物医学的自然言語処理(NLP)研究における中心的な課題である。
本稿では、個々のデータセットのデータの均一性を体系的に解決し、それらを大きなデータセットに組み合わせるための新しいフレームワークを提案する。
評価の結果,BioRExは個々のデータセットでトレーニングしたベンチマークシステムよりも大幅に高い性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-06-19T22:48:18Z) - BioRED: A Comprehensive Biomedical Relation Extraction Dataset [6.915371362219944]
我々は,複数の実体型と関係対を持つ第一種バイオメディカルREコーパスであるBioREDを提示する。
それぞれの関係を、新しい発見知識または以前に知られていた背景知識を記述するものとしてラベル付けし、自動化アルゴリズムが新規情報と背景情報を区別できるようにする。
以上の結果から,既存の手法は NER タスクでは高い性能が得られるが,RE タスクには多くの改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2022-04-08T19:23:49Z) - Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。
毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。
生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。
我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文 参考訳(メタデータ) (2021-09-27T17:00:14Z) - Federated Learning of Molecular Properties in a Heterogeneous Setting [79.00211946597845]
これらの課題に対処するために、フェデレーションヘテロジニアス分子学習を導入する。
フェデレートラーニングにより、エンドユーザは、独立したクライアント上に分散されたトレーニングデータを保存しながら、グローバルモデルを協調的に構築できる。
FedChemは、化学におけるAI改善のための新しいタイプのコラボレーションを可能にする必要がある。
論文 参考訳(メタデータ) (2021-09-15T12:49:13Z) - BERT-GT: Cross-sentence n-ary relation extraction with BERT and Graph
Transformer [7.262905275276971]
変換器の双方向表現とグラフ変換器(BERT-GT)を組み合わせた新しいアーキテクチャを提案する。
文全体を利用して現在のトークンの注目度を計算する元のトランスアーキテクチャとは異なり、本手法における隣り合わせ機構は、その隣のトークンのみを用いてその注目度を算出する。
以上の結果より,nタンパク質および化学タンパク質データセットの精度は5.44%と3.89%向上し,F1測定値も改善した。
論文 参考訳(メタデータ) (2021-01-11T19:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。