論文の概要: Self Driving Datasets: From 20 Million Papers to Nuanced Biomedical Knowledge at Scale
- arxiv url: http://arxiv.org/abs/2605.07022v1
- Date: Thu, 07 May 2026 23:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.66519
- Title: Self Driving Datasets: From 20 Million Papers to Nuanced Biomedical Knowledge at Scale
- Title(参考訳): 自動運転データセット:2000万件の論文から大規模バイオメディカル・ナレッジまで
- Authors: Haydn Jones, Yimeng Zeng, Alden Rose, Li S. Yifei, Yining Huang, Kaiwen Wu, Jiaming Liang, Maggie Ziyu Huan, Yoseph Barash, Cesar de la Fuente-Nunez, Osbert Bastani, Zachary Ives, Mark Yatskar, Jacob R. Gardner,
- Abstract要約: PubMedは、より大きく、よりニュアンスが高く、より正確に構造化されたデータセットに、自律的で費用効率良く変換できることを示す。
本報告では,(1) バイオメディカルレポジトリを基盤としたエンティティタグパイプライン,(2) エンティティターゲットコーパスレポジトリを支援するハイブリッド検索,(3) 自然言語記述のみを付与したディープリサーチシステムであるStarlingの3つの貢献について述べる。
- 参考スコア(独自算出の注目度): 34.468123235616524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manually curated biomedical repositories -- spanning bioactivity, genomics, and chemistry -- are expensive to maintain, lag behind primary literature, and discard experimental context, obscuring nuances needed to assess data correctness and coverage. We show that PubMed itself can be autonomously and cost-effectively turned into structured datasets that are larger, more nuanced, and more accurate than the curated databases they replace. We present three coupled contributions: (1) an LLM-based entity-tagging pipeline, grounded in nine biomedical ontologies, that tags 4.5B entities across 19 categories in a 22.5M-paper, 2.5T-token PubMed corpus; (2) hybrid sparse-dense retrieval supporting entity-filtered semantic queries over the tagged corpus; and (3) Starling, a multi-agent deep research system that, given only a natural-language task description, designs precision- and recall-targeted retrieval filters, induces an extraction schema, and emits structured records with nuance-rich fields and supporting passages. Across six tasks -- blood-brain barrier permeability, oral bioavailability, acute toxicity (LD50), gene-disease associations, protein subcellular localization, and chemical reactions -- Starling produces ~6.3M records (91K-3M per task); several are, to our knowledge, the largest public datasets for their property. Frontier-model rejection of our extractions is 0.6-7.7% across tasks, far below error rates we measure on widely used curated counterparts (e.g., 16.5% on BBB_Martins, 7.3% on Bioavailability_Ma). Beyond scale and accuracy, the supporting passages carry nuance tabular databases discard -- e.g., oral bioavailability may depend on fed vs. fasted state. Together, the corpus, retrieval, and agent establish a foundation for AI-driven therapeutic design. Code and datasets: https://github.com/starling-labs/starling.
- Abstract(参考訳): 手作業でキュレートされたバイオメディカルレポジトリ(生物活性、ゲノム学、化学)は、維持に費用がかかり、一次文献に遅れ、実験的な文脈を捨て、データの正しさとカバレッジを評価するのに必要なニュアンスを無視する。
PubMed自体が、より大きく、よりニュアンスがあり、彼らが置き換えたキュレートされたデータベースよりも正確である構造化データセットに、自律的かつ費用対効果で変換できることを示します。
LLMに基づくエンティティタグ付けパイプラインを9つの生物医学的オントロジーで構築し, 2.5T-token PubMed corpusの19のカテゴリに4.5Bのエンティティをタグ付けし, 2.5T-token PubMed corpus, (2) タグ付きコーパス上でのエンティティをフィルタリングするハイブリッドスパースセンス検索, (3) 自然言語タスク記述のみを付与するマルチエージェントディープリサーチシステム, 設計精度とリコールターゲット検索フィルタ, 抽出スキーマを誘導し, 構造化されたデータを生成する。
血液脳関門透過性、口腔バイオアベイラビリティ、急性毒性(LD50)、遺伝子分解関連、タンパク質細胞内局在、化学反応の6つのタスクで、スターリングはおよそ6.3Mレコード(タスク当たり91K-3M)を生成している。
抽出のフロンティアモデル拒絶はタスク間で0.6-7.7%であり、広く使用されているキュレートのエラー率よりもはるかに低い(例えば、BBB_Martinsでは16.5%、Bioavailability_Maでは7.3%)。
スケールと正確性以外にも、サポートパスは、ヌアンスタブ形式のデータベースを捨てる -- 例えば、経口的バイオアベイラビリティは、供給された状態と高速な状態に依存する可能性がある。
コーパス、検索、エージェントはAIによる治療設計の基礎を確立する。
コードとデータセット:https://github.com/starling-labs/starling。
関連論文リスト
- BioMiner: A Multi-modal System for Automated Mining of Protein-Ligand Bioactivity Data from Literature [53.894504720119805]
生物活性データ抽出のためのマルチモーダル抽出フレームワークであるBioMinerを紹介する。
BioMinerでは、生物活性セマンティクスは直接推論によって推測され、化学構造は化学構造に基づく視覚的セマンティクス推論パラダイムによって解決される。
厳密な評価と方法開発のために,500の出版物から得られた16,457の生物活性成分からなるベンチマークを構築した。
論文 参考訳(メタデータ) (2026-04-23T10:11:56Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - BiomedRAG: A Retrieval Augmented Large Language Model for Biomedicine [19.861178160437827]
大規模言語モデル(LLM)は、バイオメディカルおよび医療分野における様々な応用のための重要なリソースとして急速に現れてきた。
textscBiomedRAGは5つのバイオメディカルNLPタスクで優れたパフォーマンスを実現している。
textscBiomedRAG は、GIT と ChemProt コーパスにおいて、マイクロF1スコアが 81.42 と 88.83 の他のトリプル抽出システムより優れている。
論文 参考訳(メタデータ) (2024-05-01T12:01:39Z) - BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers [48.21255861863282]
BMRetrieverは、バイオメディカル検索を強化するための一連の密集したレトリバーである。
BMRetrieverは強力なパラメータ効率を示し、410Mの派生型はベースラインを最大11.7倍まで上回っている。
論文 参考訳(メタデータ) (2024-04-29T05:40:08Z) - Benchmarking large language models for biomedical natural language processing applications and recommendations [22.668383945059762]
大規模言語モデル(LLM)は、一般的なドメインにおいて有望であることを示している。
我々は、そのゼロショット、少数ショット、微調整性能を従来のBERTモデルやBARTモデルと比較する。
LLM出力の不足情報や幻覚といった問題を見つけます。
論文 参考訳(メタデータ) (2023-05-10T13:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。