論文の概要: GraPPI: A Retrieve-Divide-Solve GraphRAG Framework for Large-scale Protein-protein Interaction Exploration
- arxiv url: http://arxiv.org/abs/2501.16382v1
- Date: Fri, 24 Jan 2025 18:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 22:09:10.914306
- Title: GraPPI: A Retrieve-Divide-Solve GraphRAG Framework for Large-scale Protein-protein Interaction Exploration
- Title(参考訳): GraPPI: 大規模タンパク質-タンパク質相互作用探索のためのリトリーブ-ジビド-ソルブグラフRAGフレームワーク
- Authors: Ziwen Li, Xiang 'Anthony' Chen, Youngseung Jeon,
- Abstract要約: 大規模言語モデル (LLM) と検索補助生成 (RAG) フレームワークは、薬物発見を加速している。
GraPPIは大規模知識グラフ(KG)ベースの検索分割型エージェントパイプラインRAGフレームワークであり、大規模PPI信号経路探索をサポートする。
- 参考スコア(独自算出の注目度): 13.390039857939168
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Drug discovery (DD) has tremendously contributed to maintaining and improving public health. Hypothesizing that inhibiting protein misfolding can slow disease progression, researchers focus on target identification (Target ID) to find protein structures for drug binding. While Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG) frameworks have accelerated drug discovery, integrating models into cohesive workflows remains challenging. We conducted a user study with drug discovery researchers to identify the applicability of LLMs and RAGs in Target ID. We identified two main findings: 1) an LLM should provide multiple Protein-Protein Interactions (PPIs) based on an initial protein and protein candidates that have a therapeutic impact; 2) the model must provide the PPI and relevant explanations for better understanding. Based on these observations, we identified three limitations in previous approaches for Target ID: 1) semantic ambiguity, 2) lack of explainability, and 3) short retrieval units. To address these issues, we propose GraPPI, a large-scale knowledge graph (KG)-based retrieve-divide-solve agent pipeline RAG framework to support large-scale PPI signaling pathway exploration in understanding therapeutic impacts by decomposing the analysis of entire PPI pathways into sub-tasks focused on the analysis of PPI edges.
- Abstract(参考訳): 薬物発見(DD)は公衆衛生の維持と改善に大きく貢献している。
タンパク質のミスフォールディングを阻害すると疾患の進行が遅くなると仮定し、研究者は標的の同定(ターゲットID)に焦点を当て、薬物結合のためのタンパク質構造を見つける。
LLM(Large Language Models)とRAG(Retrieval-Augmented Generation)フレームワークは、薬物発見を加速しているが、モデルを凝集ワークフローに統合することは依然として困難である。
薬物発見研究者と共同で,ターゲットIDにおけるLDMとRAGの適用性について検討した。
主な所見は2つであった。
1) LLMは、初期タンパク質及び治療効果を有するタンパク質候補に基づいて、複数のタンパク質-タンパク質相互作用(PPI)を提供するべきである。
2) モデルは、理解を深めるために、PPIと関連する説明を提供する必要がある。
これらの観測から,従来のターゲットIDのアプローチには3つの制限があることがわかった。
1)意味的曖昧性
2【説明責任の欠如】
3) 短時間の回収装置。
これらの課題に対処するため,我々は,大規模知識グラフ(KG)に基づく検索分割型エージェントパイプラインであるGraPPIを提案し,PPIエッジの分析に焦点をあてたサブタスクにPPI経路全体の解析を分解することにより,治療効果を理解するための大規模PPI信号経路探索を支援する。
関連論文リスト
- Hallucination Detection in LLMs via Topological Divergence on Attention Graphs [64.74977204942199]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Joint Masked Reconstruction and Contrastive Learning for Mining Interactions Between Proteins [4.254824555546419]
タンパク質とタンパク質の相互作用 (PPI) の予測は、細胞操作の基礎となるメカニズムを解明するための手段である。
本稿では,JmcPPIと呼ばれるマスク型再構成とコントラスト学習を組み合わせた新しいPPI予測手法を提案する。
3つの広く利用されているPPIデータセットに対して行われた大規模な実験は、JmcPPIが既存の最適なベースラインモデルを上回ることを示した。
論文 参考訳(メタデータ) (2025-03-06T17:39:12Z) - Protein Large Language Models: A Comprehensive Survey [71.65899614084853]
タンパク質特異的な大規模言語モデル(Protein LLMs)は、より効率的なタンパク質構造予測、機能アノテーション、設計を可能にすることで、タンパク質科学に革命をもたらしている。
この作業は、アーキテクチャ、データセットのトレーニング、評価メトリクス、さまざまなアプリケーションをカバーする、Protein LLMの最初の包括的な概要を提供する。
論文 参考訳(メタデータ) (2025-02-21T19:22:10Z) - scGSDR: Harnessing Gene Semantics for Single-Cell Pharmacological Profiling [5.831554646284266]
scGSDRは、細胞状態と遺伝子シグナル伝達経路の知識に基づく2つの計算パイプラインを統合するモデルである。
scGSDRは、遺伝子セマンティクスを組み込んで予測性能を高め、解釈可能性モジュールを使用する。
モデルはシングルドラッグの予測からドラッグの組み合わせを含むシナリオまで拡張された。
論文 参考訳(メタデータ) (2025-02-02T15:43:20Z) - DrugAgent: Multi-Agent Large Language Model-Based Reasoning for Drug-Target Interaction Prediction [8.98329812378801]
DrugAgentは、薬物と薬物の相互作用を予測するためのマルチエージェントシステムである。
複数の専門的な視点と透明な推論を組み合わせる。
我々のアプローチは、予測毎に詳細な人間解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2024-08-23T21:24:59Z) - Explainable Biomedical Hypothesis Generation via Retrieval Augmented Generation enabled Large Language Models [46.05020842978823]
大規模言語モデル(LLM)はこの複雑なデータランドスケープをナビゲートする強力なツールとして登場した。
RAGGEDは、知識統合と仮説生成を伴う研究者を支援するために設計された包括的なワークフローである。
論文 参考訳(メタデータ) (2024-07-17T07:44:18Z) - SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation [50.26966969163348]
大規模言語モデル(LLM)は,検索増強世代(RAG)の進展に伴い,生物医学領域において大きな可能性を示した。
既存の検索強化アプローチは、様々なクエリやドキュメント、特に医療知識クエリに対処する上で、課題に直面している。
モンテカルロ木探索(MCTS)と自己回帰パラダイムに基づく自己回帰木探索(SeRTS)を提案する。
論文 参考訳(メタデータ) (2024-06-17T06:48:31Z) - PGraphDTA: Improving Drug Target Interaction Prediction using Protein
Language Models and Contact Maps [4.590060921188914]
薬物発見の鍵となる側面は、新規な薬物標的相互作用(DT)の同定である。
タンパク質-リガンド相互作用は結合親和性として知られる結合強度の連続性を示す。
性能向上のための新しい改良を提案する。
論文 参考訳(メタデータ) (2023-10-06T05:00:25Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z) - AI-Bind: Improving Binding Predictions for Novel Protein Targets and
Ligands [9.135203550164833]
現状のモデルは、新しい構造への一般化に失敗することを示す。
ネットワークベースのサンプリング戦略と教師なし事前トレーニングを組み合わせたパイプラインであるAI-Bindを紹介する。
我々は,SARS-CoV-2ウイルスタンパク質に結合した薬剤や天然化合物を予測し,AI-Bindの価値を説明する。
論文 参考訳(メタデータ) (2021-12-25T01:52:58Z) - Improved Drug-target Interaction Prediction with Intermolecular Graph
Transformer [98.8319016075089]
本稿では,3方向トランスフォーマーアーキテクチャを用いて分子間情報をモデル化する手法を提案する。
分子間グラフ変換器(IGT)は、それぞれ、結合活性と結合ポーズ予測の2番目のベストに対して、最先端のアプローチを9.1%と20.5%で上回っている。
IGTはSARS-CoV-2に対して有望な薬物スクリーニング能力を示す。
論文 参考訳(メタデータ) (2021-10-14T13:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。