論文の概要: Comparative Performance Evaluation of Large Language Models for
Extracting Molecular Interactions and Pathway Knowledge
- arxiv url: http://arxiv.org/abs/2307.08813v2
- Date: Wed, 18 Oct 2023 13:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 19:50:46.570344
- Title: Comparative Performance Evaluation of Large Language Models for
Extracting Molecular Interactions and Pathway Knowledge
- Title(参考訳): 分子相互作用と経路知識抽出のための大規模言語モデルの比較性能評価
- Authors: Gilchan Park, Byung-Jun Yoon, Xihaier Luo, Vanessa L\'opez-Marrero,
Shinjae Yoo, Shantenu Jha
- Abstract要約: タンパク質の相互作用と経路の知識を理解することは、生きたシステムの複雑さを解き明かすのに不可欠です。
既存のデータベースは、文学やその他の情報源から収集された生物学的データを提供しているが、そのメンテナンスは労働集約的である。
本稿では,これらの問題に対処する大規模言語モデルの能力を活用し,関連する科学文献からそのような知識を自動的に抽出することを提案する。
- 参考スコア(独自算出の注目度): 6.244840529371179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding protein interactions and pathway knowledge is crucial for
unraveling the complexities of living systems and investigating the underlying
mechanisms of biological functions and complex diseases. While existing
databases provide curated biological data from literature and other sources,
they are often incomplete and their maintenance is labor-intensive,
necessitating alternative approaches. In this study, we propose to harness the
capabilities of large language models to address these issues by automatically
extracting such knowledge from the relevant scientific literature. Toward this
goal, in this work, we investigate the effectiveness of different large
language models in tasks that involve recognizing protein interactions,
identifying genes associated with pathways affected by low-dose radiation, and
gene regulatory relations. We thoroughly evaluate the performance of various
models, highlight the significant findings, and discuss both the future
opportunities and the remaining challenges associated with this approach. The
code and data are available at: https://github.com/boxorange/BioIE-LLM
- Abstract(参考訳): タンパク質の相互作用と経路の知識を理解することは、生体システムの複雑さを解明し、生物学的機能や複雑な疾患の基盤となるメカニズムを研究するために重要である。
既存のデータベースは、文学やその他の情報源から収集された生物学的データを提供するが、それらはしばしば不完全であり、保守は労働集約的であり、代替アプローチを必要とする。
本研究では,このような知識を科学文献から自動抽出し,大規模言語モデルの能力を活用することを提案する。
本研究は,タンパク質相互作用の認識,低線量放射線による経路関連遺伝子同定,および遺伝子制御関係に関わるタスクにおいて,異なる大規模言語モデルの有効性について検討する。
我々は,様々なモデルの性能を徹底的に評価し,重要な知見を浮き彫りにし,今後の可能性と今後の課題を議論する。
コードとデータは、https://github.com/boxorange/bioie-llmで入手できる。
関連論文リスト
- Extracting Protein-Protein Interactions (PPIs) from Biomedical
Literature using Attention-based Relational Context Information [5.456047952635665]
本研究は,二元的相互作用型ラベルを付加したベット型相互作用定義を用いた多元的PPIコーパスを提案する。
変換器を用いた深層学習手法は,関係表現のための関係文脈情報を利用して関係分類性能を向上させる。
このモデルの性能は, 広く研究されている4つのバイオメディカル関係抽出データセットで評価される。
論文 参考訳(メタデータ) (2024-03-08T01:43:21Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Graph-Based Retriever Captures the Long Tail of Biomedical Knowledge [2.2814097119704058]
大規模言語モデル(LLM)は、膨大な知識を要約して提示することで、情報の検索方法を変えつつある。
LLMはトレーニングセットから最も頻繁に見られる情報を強調し、まれな情報を無視する傾向があります。
本稿では,これらのクラスタをダウンサンプリングし,情報過負荷問題を緩和するために知識グラフを活用する新しい情報検索手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:31:11Z) - Progress and Opportunities of Foundation Models in Bioinformatics [77.74411726471439]
基礎モデル(FM)は、特に深層学習の領域において、計算生物学の新しい時代に定着した。
我々の焦点は、特定の生物学的問題にFMを応用することであり、研究ニーズに適切なFMを選択するために研究コミュニティを指導することを目的としています。
データノイズ、モデル説明可能性、潜在的なバイアスなど、生物学においてFMが直面する課題と限界を分析します。
論文 参考訳(メタデータ) (2024-02-06T02:29:17Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Exploring the In-context Learning Ability of Large Language Model for
Biomedical Concept Linking [4.8882241537236455]
本研究では,生物医学的概念リンクのための大規模モデルのコンテキスト内学習機能を活用する手法について検討する。
提案手法は2段階のレトリーブ・アンド・ランク・フレームワークを採用する。
BC5CDRの病体正規化では90.%、化学体正規化では94.7%の精度を達成した。
論文 参考訳(メタデータ) (2023-07-03T16:19:50Z) - Cetacean Translation Initiative: a roadmap to deciphering the
communication of sperm whales [97.41394631426678]
最近の研究では、非ヒト種における音響コミュニケーションを分析するための機械学習ツールの約束を示した。
マッコウクジラの大量生物音響データの収集と処理に必要な重要な要素について概説する。
開発された技術能力は、非人間コミュニケーションと動物行動研究を研究する幅広いコミュニティにおいて、クロス応用と進歩をもたらす可能性が高い。
論文 参考訳(メタデータ) (2021-04-17T18:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。