Fugu-MT 論文翻訳(概要): High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models

論文の概要: High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models

arxiv url: http://arxiv.org/abs/2312.08274v3
Date: Fri, 15 Dec 2023 07:25:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-18 12:46:36.943462
Title: High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models
Title（参考訳）: 大規模言語モデルを用いた半構造化Web記事の高スループットバイオメディカルリレーション抽出
Authors: Songchi Zhou, Sheng Yu
Abstract要約: 関係抽出タスクをChatGPTのような大規模言語モデルの単純なバイナリ分類問題として定式化する。本手法は,主タイトルをテールエンティティとして指定した半構造化ウェブ記事に適合する。長さのコンテンツはテキストチャンクにスライスされ、埋め込みされ、追加の埋め込みモデルで検索される。
参考スコア（独自算出の注目度）: 2.323261444126253
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Objective: To develop a high-throughput biomedical relation extraction system that takes advantage of the large language models' (LLMs) reading comprehension ability and biomedical world knowledge in a scalable and evidential manner. Methods: We formulate the relation extraction task as a simple binary classification problem for large language models such as ChatGPT. Specifically, LLMs make the decision based on the external corpus and its world knowledge, giving the reason for the judgment to factual verification. This method is tailored for semi-structured web articles, wherein we designate the main title as the tail entity and explicitly incorporate it into the context, and the potential head entities are matched based on a biomedical thesaurus. Moreover, lengthy contents are sliced into text chunks, embedded, and retrieved with additional embedding models, ensuring compatibility with the context window size constraints of available open-source LLMs. Results: Using an open-source LLM, we extracted 304315 relation triplets of three distinct relation types from four reputable biomedical websites. To assess the efficacy of the basic pipeline employed for biomedical relation extraction, we curated a benchmark dataset annotated by a medical expert. Evaluation results indicate that the pipeline exhibits performance comparable to that of GPT-4. Case studies further illuminate challenges faced by contemporary LLMs in the context of biomedical relation extraction for semi-structured web articles. Conclusion: The proposed method has demonstrated its effectiveness in leveraging the strengths of LLMs for high-throughput biomedical relation extraction. Its adaptability is evident, as it can be seamlessly extended to diverse semi-structured biomedical websites, facilitating the extraction of various types of biomedical relations with ease.
Abstract（参考訳）: 目的:大規模言語モデル(llms)の読解能力と生物医学的世界知識をスケーラブルかつ実証的に活用した高スループットな生物医学的関係抽出システムを開発すること。方法:ChatGPTのような大規模言語モデルの単純なバイナリ分類問題として関係抽出タスクを定式化する。具体的には、llmは、外部コーパスとその世界知識に基づいて意思決定を行い、事実検証への判断の理由を与える。本手法は, 主タイトルをテールエンティティとして指定し, コンテキストに明示的に組み込む半構造化 Web 記事に適合し, バイオメディカルシソーラスに基づいて潜在的ヘッドエンティティをマッチングする。さらに、長い内容はテキストチャンクに分割して埋め込み、追加の埋め込みモデルで検索し、利用可能なオープンソースLCMのコンテキストウィンドウサイズ制約との互換性を確保する。結果: オープンソースのLCMを用いて, 4つのバイオメディカルウェブサイトから, 3つの異なる関係型の304315の関連トリプレットを抽出した。バイオメディカルな関係抽出に使用する基本パイプラインの有効性を評価するため,医用専門家がアノテートしたベンチマークデータセットをキュレートした。評価の結果,パイプラインはGPT-4に匹敵する性能を示した。半構造化ウェブ記事のバイオメディカルリレーション抽出の文脈において、現代LLMが直面する課題をさらに明らかにするケーススタディ。結論: 提案手法は, LLMの強度を高出力バイオメディカルな関係抽出に有効であることを示す。多様な半構造化生物医学ウェブサイトにシームレスに拡張でき、様々な生物医学関係の抽出を容易にするので、適応性は明らかである。

関連論文リスト

Scalable Construction of a Lung Cancer Knowledge Base: Profiling Semantic Reasoning in LLMs [0.0]
オープン情報抽出(OpenIE)を用いた肺癌知識基盤構築のためのパイプラインを提案する。結果として得られる三重項集合は、細調整された大言語モデル(LLM)のためのドメイン固有で大規模でノイズ対応のリソースを提供する。
論文参考訳（メタデータ） (2026-01-05T23:40:00Z)
Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。 ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。 LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文参考訳（メタデータ） (2025-05-03T14:21:48Z)
m-KAILIN: Knowledge-Driven Agentic Scientific Corpus Distillation Framework for Biomedical Large Language Models Training [8.238980609871042]
本稿では, バイオメディカルトレーニングに適した, 知識駆動型多エージェント・フレームワークを提案する。我々のアプローチは協調的なマルチエージェントアーキテクチャであり、それぞれがメディカル・サブジェクト・ヘッダー(MeSH)階層によってガイドされ、自律的に高品質なデータを抽出し、合成し、自己評価するための協調作業を行う。
論文参考訳（メタデータ） (2025-04-28T08:18:24Z)
Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文参考訳（メタデータ） (2024-11-10T16:40:27Z)
NeuroSym-BioCAT: Leveraging Neuro-Symbolic Methods for Biomedical Scholarly Document Categorization and Question Answering [0.14999444543328289]
本稿では,最適化されたトピックモデリングフレームワークであるOVB-LDAとBI-POP CMA-ES最適化技術を統合し,学術文書の抽象分類を強化した新しい手法を提案する。我々は、ドメイン固有データに基づいて微調整された蒸留MiniLMモデルを用いて、高精度な回答抽出を行う。
論文参考訳（メタデータ） (2024-10-29T14:45:12Z)
Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文参考訳（メタデータ） (2024-03-03T14:59:47Z)
An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文参考訳（メタデータ） (2024-02-21T11:27:31Z)
Diversifying Knowledge Enhancement of Biomedical Language Models using Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文参考訳（メタデータ） (2023-12-21T14:26:57Z)
Benchingmaking Large Langage Models in Biomedical Triple Extraction [13.022101126299269]
本研究は主に文レベルのバイオメディカルトリプル抽出に焦点を当てている。高品質なバイオメディカルトリプル抽出データセットが存在しないことは、堅牢なトリプル抽出システムの開発の進歩を妨げている。 GITは、専門家によるバイオメディカルトリプル抽出データセットである。
論文参考訳（メタデータ） (2023-10-27T20:15:23Z)
Improving Biomedical Abstractive Summarisation with Knowledge Aggregation from Citation Papers [24.481854035628434]
既存の言語モデルは、バイオメディカルの専門家が生み出したものと同等の技術的要約を生成するのに苦労している。本稿では,引用論文からドメイン固有の知識を統合する,新たな注目に基づく引用集約モデルを提案する。我々のモデルは最先端のアプローチより優れており、抽象的なバイオメディカルテキスト要約の大幅な改善を実現している。
論文参考訳（メタデータ） (2023-10-24T09:56:46Z)
Interpretable Medical Diagnostics with Structured Data Extraction by Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-08T09:12:28Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
An Empirical Study on Relation Extraction in the Biomedical Domain [0.0]
文レベルの関係抽出と文書レベルの関係抽出について検討し、いくつかのベンチマークデータセット上で最先端の手法を実行する。以上の結果から,(1)現行の文書レベルの関係抽出手法は高い一般化能力を有し,(2)既存の手法では,バイオメディシンのモデル微調整に大量のラベル付きデータを必要とすることがわかった。
論文参考訳（メタデータ） (2021-12-11T03:36:38Z)
BioIE: Biomedical Information Extraction with Multi-head Attention Enhanced Graph Convolutional Network [9.227487525657901]
本稿では,バイオメディカルテキストと非構造化医療報告から関係を抽出するハイブリッドニューラルネットワークであるバイオメディカル情報抽出を提案する。本研究は,2つの主要な生医学的関係抽出タスク,化学物質とタンパク質の相互作用,およびクロスホスピタル・パン・カンノロジー報告コーパスについて検討した。
論文参考訳（メタデータ） (2021-10-26T13:19:28Z)
Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文参考訳（メタデータ） (2021-09-27T17:00:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。