論文の概要: RAGPPI: RAG Benchmark for Protein-Protein Interactions in Drug Discovery
- arxiv url: http://arxiv.org/abs/2505.23823v1
- Date: Wed, 28 May 2025 05:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.539779
- Title: RAGPPI: RAG Benchmark for Protein-Protein Interactions in Drug Discovery
- Title(参考訳): RAGPPI : 薬物発見におけるタンパク質-タンパク質相互作用のRAGベンチマーク
- Authors: Youngseung Jeon, Ziwen Li, Thomas Li, JiaSyuan Chang, Morteza Ziyadi, Xiang 'Anthony' Chen,
- Abstract要約: タンパク質-タンパク質相互作用(PPI)の生物学的影響の回収は、医薬品開発における標的同定(ターゲットID)に不可欠である。
現在、PPIの生物学的影響を特定するためのベンチマークは存在しない。
RAG Benchmark for PPIs (RAGPPI) は4,420組の質問応答ベンチマークである。
- 参考スコア(独自算出の注目度): 12.637452293481681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieving the biological impacts of protein-protein interactions (PPIs) is essential for target identification (Target ID) in drug development. Given the vast number of proteins involved, this process remains time-consuming and challenging. Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG) frameworks have supported Target ID; however, no benchmark currently exists for identifying the biological impacts of PPIs. To bridge this gap, we introduce the RAG Benchmark for PPIs (RAGPPI), a factual question-answer benchmark of 4,420 question-answer pairs that focus on the potential biological impacts of PPIs. Through interviews with experts, we identified criteria for a benchmark dataset, such as a type of QA and source. We built a gold-standard dataset (500 QA pairs) through expert-driven data annotation. We developed an ensemble auto-evaluation LLM that reflected expert labeling characteristics, which facilitates the construction of a silver-standard dataset (3,720 QA pairs). We are committed to maintaining RAGPPI as a resource to support the research community in advancing RAG systems for drug discovery QA solutions.
- Abstract(参考訳): タンパク質-タンパク質相互作用(PPI)の生物学的影響の回収は、医薬品開発における標的同定(ターゲットID)に不可欠である。
膨大な数のタンパク質が関与していることを考えると、このプロセスは時間がかかり、困難である。
Large Language Models (LLMs)とRetrieval-Augmented Generation (RAG)フレームワークはTarget IDをサポートしているが、PPIの生物学的影響を特定するためのベンチマークは存在しない。
このギャップを埋めるため,RAGPPI (RAGPPI:RAG Benchmark for PPIs) を導入する。
専門家へのインタビューを通じて、ベンチマークデータセット(QAの種類やソースなど)の基準を特定しました。
専門家主導のデータアノテーションを通じて、ゴールドスタンダードのデータセット(500QAペア)を構築しました。
我々は,銀標準データセット(3,720QAペア)の構築を容易にする,専門家のラベル付け特性を反映したアンサンブル自動評価LLMを開発した。
我々は,薬物発見QAソリューションのためのRAGPPIシステムを研究コミュニティを支援するリソースとして,RAGPPIの維持を約束する。
関連論文リスト
- GraPPI: A Retrieve-Divide-Solve GraphRAG Framework for Large-scale Protein-protein Interaction Exploration [13.390039857939168]
大規模言語モデル (LLM) と検索補助生成 (RAG) フレームワークは、薬物発見を加速している。
GraPPIは大規模知識グラフ(KG)ベースの検索分割型エージェントパイプラインRAGフレームワークであり、大規模PPI信号経路探索をサポートする。
論文 参考訳(メタデータ) (2025-01-24T18:16:53Z) - WelQrate: Defining the Gold Standard in Small Molecule Drug Discovery Benchmarking [13.880278087741482]
深層学習はコンピュータ支援による薬物発見に革命をもたらした。
ディープラーニングはコンピュータ支援薬の発見に革命をもたらしたが、AIコミュニティは主にモデルイノベーションに重点を置いてきた。
我々は、小型分子の薬物発見ベンチマークであるWelQrateの新しいゴールドスタンダードの確立を目指しています。
論文 参考訳(メタデータ) (2024-11-14T21:49:41Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - CRAG -- Comprehensive RAG Benchmark [58.15980697921195]
Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。
既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。
このギャップを埋めるために、包括的RAGベンチマーク(CRAG)を導入する。
CRAGは、Webと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-06-07T08:43:07Z) - PQA: Zero-shot Protein Question Answering for Free-form Scientific Enquiry with Large Language Models [4.5044944051958264]
Protein Question Answering (PQA) は、タスク固有のトレーニングなしで、幅広いタンパク質関連クエリに答えるように設計されたタスクである。
Pikaは、PQA用に調整された硬化した脱バイアスデータセットと、生化学的に関連するベンチマーク戦略で構成されている。
論文 参考訳(メタデータ) (2024-02-21T09:38:17Z) - pyAKI - An Open Source Solution to Automated KDIGO classification [0.40125518029941076]
急性腎不全 (AKI) は重度の重篤な患者の50%に影響を及ぼす重篤な疾患である。
Kidney Disease Improving Global Outcomes (KDIGO) の基準を時系列データに適用するための標準化およびオープンソースツールの欠如は、作業負荷と研究品質に悪影響を及ぼす。
このプロジェクトでは、一貫性のあるKDIGO基準実装のための包括的なソリューションを提供することで、このギャップに対処するオープンソースのパイプラインであるpyAKIを紹介します。
論文 参考訳(メタデータ) (2024-01-23T17:33:41Z) - Biomedical knowledge graph-optimized prompt generation for large language models [1.6658478064349376]
大規模言語モデル(LLM)は前例のない速度で採用されているが、バイオメディシンのような知識集約ドメインでは依然として課題に直面している。
本稿では,トークン最適化およびロバストな知識グラフに基づくRetrieval Augmented Generationフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-11-29T03:07:00Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。