Fugu-MT 論文翻訳(概要): Comparative Performance Evaluation of Large Language Models for Extracting Molecular Interactions and Pathway Knowledge

論文の概要: Comparative Performance Evaluation of Large Language Models for Extracting Molecular Interactions and Pathway Knowledge

arxiv url: http://arxiv.org/abs/2307.08813v2
Date: Wed, 18 Oct 2023 13:52:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 19:50:46.570344
Title: Comparative Performance Evaluation of Large Language Models for Extracting Molecular Interactions and Pathway Knowledge
Title（参考訳）: 分子相互作用と経路知識抽出のための大規模言語モデルの比較性能評価
Authors: Gilchan Park, Byung-Jun Yoon, Xihaier Luo, Vanessa L\'opez-Marrero, Shinjae Yoo, Shantenu Jha
Abstract要約: タンパク質の相互作用と経路の知識を理解することは、生きたシステムの複雑さを解き明かすのに不可欠です。既存のデータベースは、文学やその他の情報源から収集された生物学的データを提供しているが、そのメンテナンスは労働集約的である。本稿では,これらの問題に対処する大規模言語モデルの能力を活用し,関連する科学文献からそのような知識を自動的に抽出することを提案する。
参考スコア（独自算出の注目度）: 6.244840529371179
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding protein interactions and pathway knowledge is crucial for unraveling the complexities of living systems and investigating the underlying mechanisms of biological functions and complex diseases. While existing databases provide curated biological data from literature and other sources, they are often incomplete and their maintenance is labor-intensive, necessitating alternative approaches. In this study, we propose to harness the capabilities of large language models to address these issues by automatically extracting such knowledge from the relevant scientific literature. Toward this goal, in this work, we investigate the effectiveness of different large language models in tasks that involve recognizing protein interactions, identifying genes associated with pathways affected by low-dose radiation, and gene regulatory relations. We thoroughly evaluate the performance of various models, highlight the significant findings, and discuss both the future opportunities and the remaining challenges associated with this approach. The code and data are available at: https://github.com/boxorange/BioIE-LLM
Abstract（参考訳）: タンパク質の相互作用と経路の知識を理解することは、生体システムの複雑さを解明し、生物学的機能や複雑な疾患の基盤となるメカニズムを研究するために重要である。既存のデータベースは、文学やその他の情報源から収集された生物学的データを提供するが、それらはしばしば不完全であり、保守は労働集約的であり、代替アプローチを必要とする。本研究では,このような知識を科学文献から自動抽出し,大規模言語モデルの能力を活用することを提案する。本研究は,タンパク質相互作用の認識,低線量放射線による経路関連遺伝子同定,および遺伝子制御関係に関わるタスクにおいて,異なる大規模言語モデルの有効性について検討する。我々は,様々なモデルの性能を徹底的に評価し,重要な知見を浮き彫りにし,今後の可能性と今後の課題を議論する。コードとデータは、https://github.com/boxorange/bioie-llmで入手できる。

関連論文リスト

KGOT: Unified Knowledge Graph and Optimal Transport Pseudo-Labeling for Molecule-Protein Interaction Prediction [20.031487150263725]
我々は,未標識分子-タンパク質対に対して,高品質な擬似ラベルを生成するための最適輸送ベースアプローチを開発した。異種生物の多様性をブリッジするメカニズムとして擬似ラベル処理を扱うことにより,異種データの有効利用が可能となった。仮想スクリーニングタスクやタンパク質検索タスクを含む,複数のMPIデータセット上でのフレームワークの評価を行った。
論文参考訳（メタデータ） (2025-12-10T06:55:36Z)
Knowledge-Augmented Long-CoT Generation for Complex Biomolecular Reasoning [51.673503054645415]
生体分子機構は、分子間相互作用、シグナルカスケード、代謝経路の多段階的推論を必要とする。既存のアプローチはしばしばこれらの問題を悪化させる: 推論ステップは生物学的事実から逸脱したり、長い機械的依存関係を捉えるのに失敗する。本稿では,LLMと知識グラフに基づくマルチホップ推論チェーンを統合したLong-CoT推論フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-11T09:26:32Z)
Platform for Representation and Integration of multimodal Molecular Embeddings [43.54912893426355]
既存の分子埋め込みのための機械学習手法は、特定のタスクやデータモダリティに制限されている。既存の埋め込みは、ほとんど重複しない分子信号を取り込んでおり、埋め込み統合の価値を強調している。我々は,多モード分子埋め込み(PRISME)の表現と統合のためのプラットフォームを提案し,不均一な埋め込みを統一された多モード表現に統合する。
論文参考訳（メタデータ） (2025-07-10T01:18:50Z)
In-silico biological discovery with large perturbation models [46.388631244976885]
本稿では,摂動,読み出し,コンテキストをアンタングル次元として表現することで摂動実験を統合するディープラーニングモデルであるLarge Perturbation Model(LPM)を提案する。 LPMは、未確認実験の摂動後のトランスクリプトームを予測することを含む、様々な生物学的発見タスクで既存の方法より優れている。
論文参考訳（メタデータ） (2025-03-30T17:41:25Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文参考訳（メタデータ） (2024-12-26T12:12:23Z)
COMET: Benchmark for Comprehensive Biological Multi-omics Evaluation Tasks and Language Models [56.81513758682858]
COMETは、シングルオミクス、クロスオミクス、マルチオミクスタスクのモデルを評価することを目的としている。まず、我々は、DNA、RNA、タンパク質の主要な構造的および機能的側面をカバーする、下流タスクとデータセットの多様なコレクションをキュレートし、開発する。そこで我々は,DNA,RNA,タンパク質の既存の基礎言語モデルと,新たに提案されたマルチオミクス法を評価する。
論文参考訳（メタデータ） (2024-12-13T18:42:00Z)
Explainable AI Methods for Multi-Omics Analysis: A Survey [3.885941688264509]
マルチオミクス(multi-omics)とは、複数の「オム」から派生したデータの積分解析である。深層学習の手法は、マルチオミクスデータの統合や、分子間相互作用の洞察、複雑な疾患の研究の強化にますます活用されている。これらのモデルは、多くの相互接続層と非線形関係を持ち、しばしばブラックボックスとして機能し、意思決定プロセスにおける透明性を欠いている。このレビューでは、マルチオミクス研究において、xAIが深層学習モデルの解釈可能性を改善する方法について検討し、臨床医に明確な洞察を与える可能性を強調した。
論文参考訳（メタデータ） (2024-10-15T05:01:17Z)
Interpreting artificial neural networks to detect genome-wide association signals for complex traits [0.0]
我々は人工ニューラルネットワークを訓練し、シミュレーションと実際のジェノタイプフェノタイプデータセットの両方を用いて複雑な特徴を予測する。統合失調症に合併した多発性座位を指摘された。
論文参考訳（メタデータ） (2024-07-26T15:20:42Z)
Explainable Biomedical Hypothesis Generation via Retrieval Augmented Generation enabled Large Language Models [46.05020842978823]
大規模言語モデル(LLM)はこの複雑なデータランドスケープをナビゲートする強力なツールとして登場した。 RAGGEDは、知識統合と仮説生成を伴う研究者を支援するために設計された包括的なワークフローである。
論文参考訳（メタデータ） (2024-07-17T07:44:18Z)
Optimal Transport for Latent Integration with An Application to Heterogeneous Neuronal Activity Data [1.5311478638611091]
本稿では,複雑な生物学的プロセスにおいて共有パターンを抽出する最適なトランスポートに基づく,新しい異種データ統合フレームワークを提案する。本手法は,少数の被験者でも有効であり,アライメントに補助的なマッチング情報を必要としない。
論文参考訳（メタデータ） (2024-06-27T04:29:21Z)
Cognitive Evolutionary Learning to Select Feature Interactions for Recommender Systems [59.117526206317116]
Cellはさまざまなタスクやデータに対して,さまざまなモデルに適応的に進化可能であることを示す。 4つの実世界のデータセットの実験では、細胞は最先端のベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2024-05-29T02:35:23Z)
BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。 BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。 6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文参考訳（メタデータ） (2024-05-27T19:57:17Z)
Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文参考訳（メタデータ） (2024-03-03T14:59:47Z)
An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文参考訳（メタデータ） (2024-02-21T11:27:31Z)
Graph-Based Retriever Captures the Long Tail of Biomedical Knowledge [2.2814097119704058]
大規模言語モデル(LLM)は、膨大な知識を要約して提示することで、情報の検索方法を変えつつある。 LLMはトレーニングセットから最も頻繁に見られる情報を強調し、まれな情報を無視する傾向があります。本稿では,これらのクラスタをダウンサンプリングし,情報過負荷問題を緩和するために知識グラフを活用する新しい情報検索手法を提案する。
論文参考訳（メタデータ） (2024-02-19T18:31:11Z)
Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文参考訳（メタデータ） (2023-10-23T13:35:24Z)
Interpretable multimodal fusion networks reveal mechanisms of brain cognition [26.954460880062506]
我々は,自動診断と結果解釈を同時に行うことができる,解釈可能なマルチモーダル融合モデルgCAM-CCLを開発した。脳画像遺伝学的研究におけるgCAM-CCLモデルの有効性を検証し,gCAM-CCLの分類と機構解析の両面において良好な性能を示した。
論文参考訳（メタデータ） (2020-06-16T18:52:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。