論文の概要: High-throughput Biomedical Relation Extraction for Semi-Structured Web
Articles Empowered by Large Language Models
- arxiv url: http://arxiv.org/abs/2312.08274v3
- Date: Fri, 15 Dec 2023 07:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 12:46:36.943462
- Title: High-throughput Biomedical Relation Extraction for Semi-Structured Web
Articles Empowered by Large Language Models
- Title(参考訳): 大規模言語モデルを用いた半構造化Web記事の高スループットバイオメディカルリレーション抽出
- Authors: Songchi Zhou, Sheng Yu
- Abstract要約: 関係抽出タスクをChatGPTのような大規模言語モデルの単純なバイナリ分類問題として定式化する。
本手法は,主タイトルをテールエンティティとして指定した半構造化ウェブ記事に適合する。
長さのコンテンツはテキストチャンクにスライスされ、埋め込みされ、追加の埋め込みモデルで検索される。
- 参考スコア(独自算出の注目度): 2.323261444126253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective: To develop a high-throughput biomedical relation extraction system
that takes advantage of the large language models' (LLMs) reading comprehension
ability and biomedical world knowledge in a scalable and evidential manner.
Methods: We formulate the relation extraction task as a simple binary
classification problem for large language models such as ChatGPT. Specifically,
LLMs make the decision based on the external corpus and its world knowledge,
giving the reason for the judgment to factual verification. This method is
tailored for semi-structured web articles, wherein we designate the main title
as the tail entity and explicitly incorporate it into the context, and the
potential head entities are matched based on a biomedical thesaurus. Moreover,
lengthy contents are sliced into text chunks, embedded, and retrieved with
additional embedding models, ensuring compatibility with the context window
size constraints of available open-source LLMs. Results: Using an open-source
LLM, we extracted 304315 relation triplets of three distinct relation types
from four reputable biomedical websites. To assess the efficacy of the basic
pipeline employed for biomedical relation extraction, we curated a benchmark
dataset annotated by a medical expert. Evaluation results indicate that the
pipeline exhibits performance comparable to that of GPT-4. Case studies further
illuminate challenges faced by contemporary LLMs in the context of biomedical
relation extraction for semi-structured web articles. Conclusion: The proposed
method has demonstrated its effectiveness in leveraging the strengths of LLMs
for high-throughput biomedical relation extraction. Its adaptability is
evident, as it can be seamlessly extended to diverse semi-structured biomedical
websites, facilitating the extraction of various types of biomedical relations
with ease.
- Abstract(参考訳): 目的:大規模言語モデル(llms)の読解能力と生物医学的世界知識をスケーラブルかつ実証的に活用した高スループットな生物医学的関係抽出システムを開発すること。
方法:ChatGPTのような大規模言語モデルの単純なバイナリ分類問題として関係抽出タスクを定式化する。
具体的には、llmは、外部コーパスとその世界知識に基づいて意思決定を行い、事実検証への判断の理由を与える。
本手法は, 主タイトルをテールエンティティとして指定し, コンテキストに明示的に組み込む半構造化 Web 記事に適合し, バイオメディカルシソーラスに基づいて潜在的ヘッドエンティティをマッチングする。
さらに、長い内容はテキストチャンクに分割して埋め込み、追加の埋め込みモデルで検索し、利用可能なオープンソースLCMのコンテキストウィンドウサイズ制約との互換性を確保する。
結果: オープンソースのLCMを用いて, 4つのバイオメディカルウェブサイトから, 3つの異なる関係型の304315の関連トリプレットを抽出した。
バイオメディカルな関係抽出に使用する基本パイプラインの有効性を評価するため,医用専門家がアノテートしたベンチマークデータセットをキュレートした。
評価の結果,パイプラインはGPT-4に匹敵する性能を示した。
半構造化ウェブ記事のバイオメディカルリレーション抽出の文脈において、現代LLMが直面する課題をさらに明らかにするケーススタディ。
結論: 提案手法は, LLMの強度を高出力バイオメディカルな関係抽出に有効であることを示す。
多様な半構造化生物医学ウェブサイトにシームレスに拡張でき、様々な生物医学関係の抽出を容易にするので、適応性は明らかである。
関連論文リスト
- NeuroSym-BioCAT: Leveraging Neuro-Symbolic Methods for Biomedical Scholarly Document Categorization and Question Answering [0.14999444543328289]
本稿では,最適化されたトピックモデリングフレームワークであるOVB-LDAとBI-POP CMA-ES最適化技術を統合し,学術文書の抽象分類を強化した新しい手法を提案する。
我々は、ドメイン固有データに基づいて微調整された蒸留MiniLMモデルを用いて、高精度な回答抽出を行う。
論文 参考訳(メタデータ) (2024-10-29T14:45:12Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Benchingmaking Large Langage Models in Biomedical Triple Extraction [13.022101126299269]
本研究は主に文レベルのバイオメディカルトリプル抽出に焦点を当てている。
高品質なバイオメディカルトリプル抽出データセットが存在しないことは、堅牢なトリプル抽出システムの開発の進歩を妨げている。
GITは、専門家によるバイオメディカルトリプル抽出データセットである。
論文 参考訳(メタデータ) (2023-10-27T20:15:23Z) - Improving Biomedical Abstractive Summarisation with Knowledge
Aggregation from Citation Papers [24.481854035628434]
既存の言語モデルは、バイオメディカルの専門家が生み出したものと同等の技術的要約を生成するのに苦労している。
本稿では,引用論文からドメイン固有の知識を統合する,新たな注目に基づく引用集約モデルを提案する。
我々のモデルは最先端のアプローチより優れており、抽象的なバイオメディカルテキスト要約の大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T09:56:46Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - An Empirical Study on Relation Extraction in the Biomedical Domain [0.0]
文レベルの関係抽出と文書レベルの関係抽出について検討し、いくつかのベンチマークデータセット上で最先端の手法を実行する。
以上の結果から,(1)現行の文書レベルの関係抽出手法は高い一般化能力を有し,(2)既存の手法では,バイオメディシンのモデル微調整に大量のラベル付きデータを必要とすることがわかった。
論文 参考訳(メタデータ) (2021-12-11T03:36:38Z) - BioIE: Biomedical Information Extraction with Multi-head Attention
Enhanced Graph Convolutional Network [9.227487525657901]
本稿では,バイオメディカルテキストと非構造化医療報告から関係を抽出するハイブリッドニューラルネットワークであるバイオメディカル情報抽出を提案する。
本研究は,2つの主要な生医学的関係抽出タスク,化学物質とタンパク質の相互作用,およびクロスホスピタル・パン・カンノロジー報告コーパスについて検討した。
論文 参考訳(メタデータ) (2021-10-26T13:19:28Z) - Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。
毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。
生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。
我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文 参考訳(メタデータ) (2021-09-27T17:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。