論文の概要: Beyond Manual Curation: Augmenting Targeted Protein Degradation Databases via Agentic Literature Extraction Workflows
- arxiv url: http://arxiv.org/abs/2605.11221v1
- Date: Mon, 11 May 2026 20:33:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.415359
- Title: Beyond Manual Curation: Augmenting Targeted Protein Degradation Databases via Agentic Literature Extraction Workflows
- Title(参考訳): 手動キュレーションを超えて:エージェント文学抽出ワークフローによるターゲットタンパク質分解データベースの拡張
- Authors: Yaochen Rao, Farzaneh Jalalypour, N. M. Anoop Krishnan, Rocío Mercado,
- Abstract要約: バイオメディシンの予測モデルは、一次出版物のテキスト、表、サプリメントにロックされた構造化されたアッセイデータに依存する。
このボトルネックは、特にターゲットタンパク質分解(TPD)において、各アッセイレコードは、複合アイデンティティ、分解ターゲット、リクルーザー、アッセイコンテキスト、セクション、テーブル、補足ファイル間で報告されるエンドポイント値を組み合わせる必要がある。
ドメイン固有のキュレーションタスクとしてPDデータベース抽出を定式化し、ループ内LPMワークフローを提案する。
我々は、TPDデータキュレーションとAI支援科学キュレーションのためのリソースとして、ワークフロー、プロンプト、評価コード、抽出データセットをより広範囲にリリースする。
- 参考スコア(独自算出の注目度): 4.363171757159274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predictive models in biomedicine depend on structured assay data locked in the text, tables, and supplements of primary publications. This bottleneck is especially acute in targeted protein degradation (TPD), where each assay record must combine compound identity, degradation target, recruiter, assay context, and endpoint values reported across sections, tables, and supplementary files. Inconsistent compound identifiers and incomplete or implicit assay context further demand domain-specific logic that generic LLM pipelines do not provide. Existing molecular glue and PROTAC databases are manually curated and often lack the experimental context required for downstream modeling. We formulate TPD database extraction as a domain-specific curation task and present an expert-in-the-loop LLM workflow, evaluated through a triangular comparison among LLM predictions, standardized baseline records, and expert-annotated ground truth. A lightweight cross-validated prompt-refinement module adapts extraction instructions from scarce expert annotations. With only seven annotated molecular glue publications, the workflow achieved record-level $F_1 = 0.98$ and transferred to PROTACs by terminology substitution alone, maintaining record-level $F_1 > 0.93$. Applied at scale, it expanded molecular glue and PROTAC databases by 81% and 92% records, respectively, with 92% and 82.5% of newly recovered records validated as correct upon expert review. The workflow also recovered kinetic and assay-context information essential for cross-study potency comparison and condition-aware degradation modeling. We release the workflow, prompts, evaluation code, and extracted datasets as resources for TPD data curation and AI-assisted scientific curation more broadly.
- Abstract(参考訳): バイオメディシンの予測モデルは、一次出版物のテキスト、表、サプリメントにロックされた構造化されたアッセイデータに依存する。
このボトルネックは、特にターゲットタンパク質分解(TPD)において、各アッセイレコードは、複合アイデンティティ、分解ターゲット、リクルーザー、アッセイコンテキスト、セクション、テーブル、補足ファイル間で報告されるエンドポイント値を組み合わせる必要がある。
不整合複合識別子と不完全または暗黙のアッセイコンテキストは、ジェネリックLLMパイプラインが提供しないドメイン固有のロジックをさらに要求する。
既存の分子接着剤と PROTAC データベースは手動でキュレートされ、下流のモデリングに必要な実験的なコンテキストを欠いていることが多い。
我々は、ドメイン固有のキュレーションタスクとしてPDデータベース抽出を定式化し、LLM予測、標準化されたベースラインレコード、および専門家が注釈付けした基底真理の三角形比較により評価した、エキスパート・イン・ザ・ループのLCMワークフローを示す。
軽量なクロスバリデーションプロンプトリファインメントモジュールは、不足する専門家アノテーションからの抽出命令に適応する。
7つのアノテートされた分子接着剤の出版物だけで、このワークフローは記録レベルの$F_1 = 0.98$を達成し、用語置換だけでPropertaCsに移行し、記録レベルの$F_1 > 0.93$を維持した。
大規模に応用され、分子接着剤とPRTACデータベースをそれぞれ81%と92%に拡大し、専門家のレビューでは92%と82.5%が修正された。
ワークフローはまた、クロスステディな機能比較と条件対応の劣化モデリングに不可欠な、速度論的およびアッセイ・コンテキスト情報を回復した。
我々は、TPDデータキュレーションとAI支援科学キュレーションのためのリソースとして、ワークフロー、プロンプト、評価コード、抽出データセットをより広範囲にリリースする。
関連論文リスト
- From Papers to Property Tables: A Priority-Based LLM Workflow for Materials Data Extraction [1.0901176137697233]
本稿では, 構造的, ショットレベルの衝撃物理実験記録を自動的に抽出し, 再構成するための, 即時駆動型階層的ワークフローを提案する。
パイプラインは1ショット当たり37の実験的なフィールドをターゲットにし、3段階の優先順位戦略を適用した。
ワークフローの精度は94.93%(T1)、92.04%(T2)、83.49%(T3)、全体的な重み付け精度は94.69%であった。
論文 参考訳(メタデータ) (2026-04-08T20:37:17Z) - Diagnosing Structural Failures in LLM-Based Evidence Extraction for Meta-Analysis [0.8193467416247519]
レビューとメタ分析は、物語を構造化され、数値化された研究記録に変換することに頼っている。
大規模言語モデル(LLM)の急速な進歩にもかかわらず、このプロセスの構造的要件を満たすことができるかどうかは不明だ。
本稿では,LLMに基づくエビデンス抽出をスキーマ制約クエリの進行として評価する構造的診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T14:09:43Z) - A Dataset for Distilling Knowledge Priors from Literature for Therapeutic Design [16.22074029228085]
実験室で使用される化合物を記述した文献から抽出した設計問題のデータセットであるMedexを紹介した。
Medexは3230万対の自然言語事実と適切な実体表現で構成されている。
論文 参考訳(メタデータ) (2025-08-14T17:59:37Z) - DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery [54.79763887844838]
大規模言語モデル(LLM)と自律エージェントの統合は、自動推論とタスク実行を通じて科学的発見を促進する大きな可能性を秘めている。
本稿では,薬物発見におけるエンドツーエンド科学のために設計されたパラメータ化推論アーキテクチャを備えたLSMベースのエージェントシステムであるDrarmPilotを紹介する。
DrugPilot は ReAct や LoT のような最先端のエージェントよりも優れており、タスク完了率は98.0%、93.5%、64.0%である。
論文 参考訳(メタデータ) (2025-05-20T05:18:15Z) - Evaluating The Performance of Using Large Language Models to Automate Summarization of CT Simulation Orders in Radiation Oncology [3.0048953993445586]
本研究の目的は,大規模言語モデル(LLM)を用いて,CTシミュレーションの順序から要約を生成することである。
ローカルにホストされたLlama 3.1 405Bモデルを使用して、CTシミュレーションの順序からキーワードを抽出し、要約を生成する。
LLM生成サマリーの精度は, 基礎事実を基準として, セラピストによって評価された。
論文 参考訳(メタデータ) (2025-01-27T18:47:58Z) - SIDE: Surrogate Conditional Data Extraction from Diffusion Models [32.18993348942877]
textbfSurrogate condItional Data extract (SIDE) は、データ駆動型サロゲート条件を構築し、任意のDPMからターゲット抽出を可能にするフレームワークである。
SIDEは、いわゆる安全無条件モデルからトレーニングデータを抽出し、条件付きモデルであってもベースラインアタックより優れていることを示す。
我々の研究は、DPMの脅威状況を再定義し、厳密な条件付けを基本的な脆弱性として確立し、モデルプライバシ評価のための新しいより強力なベンチマークを設定します。
論文 参考訳(メタデータ) (2024-10-03T13:17:06Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Benchingmaking Large Langage Models in Biomedical Triple Extraction [13.022101126299269]
本研究は主に文レベルのバイオメディカルトリプル抽出に焦点を当てている。
高品質なバイオメディカルトリプル抽出データセットが存在しないことは、堅牢なトリプル抽出システムの開発の進歩を妨げている。
GITは、専門家によるバイオメディカルトリプル抽出データセットである。
論文 参考訳(メタデータ) (2023-10-27T20:15:23Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。