論文の概要: BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases
- arxiv url: http://arxiv.org/abs/2505.20321v1
- Date: Fri, 23 May 2025 17:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.167857
- Title: BiomedSQL: Text-to-SQL for Scientific Reasoning on Biomedical Knowledge Bases
- Title(参考訳): BiomedSQL: バイオメディカル知識ベースの科学的推論のためのテキストからSQL
- Authors: Mathew J. Koretsky, Maya Willey, Adi Asija, Owen Bianchi, Chelsea X. Alvarado, Tanay Nayak, Nicole Kuznetsov, Sungwon Kim, Mike A. Nalls, Daniel Khashabi, Faraz Faghri,
- Abstract要約: 実世界のバイオメディカル知識ベース上で科学的推論を評価するために設計された最初のベンチマークであるBiomedを紹介する。
Biomedは68,000の問合せ/問合せ/問合せのトリプルで構成されている。
GPT-o3-mini 3ステップエージェントは59.0%の実行精度を達成し、カスタムマルチステップエージェントBMは62.6%に達した。
- 参考スコア(独自算出の注目度): 13.374211429909378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical researchers increasingly rely on large-scale structured databases for complex analytical tasks. However, current text-to-SQL systems often struggle to map qualitative scientific questions into executable SQL, particularly when implicit domain reasoning is required. We introduce BiomedSQL, the first benchmark explicitly designed to evaluate scientific reasoning in text-to-SQL generation over a real-world biomedical knowledge base. BiomedSQL comprises 68,000 question/SQL query/answer triples grounded in a harmonized BigQuery knowledge base that integrates gene-disease associations, causal inference from omics data, and drug approval records. Each question requires models to infer domain-specific criteria, such as genome-wide significance thresholds, effect directionality, or trial phase filtering, rather than rely on syntactic translation alone. We evaluate a range of open- and closed-source LLMs across prompting strategies and interaction paradigms. Our results reveal a substantial performance gap: GPT-o3-mini achieves 59.0% execution accuracy, while our custom multi-step agent, BMSQL, reaches 62.6%, both well below the expert baseline of 90.0%. BiomedSQL provides a new foundation for advancing text-to-SQL systems capable of supporting scientific discovery through robust reasoning over structured biomedical knowledge bases. Our dataset is publicly available at https://huggingface.co/datasets/NIH-CARD/BiomedSQL, and our code is open-source at https://github.com/NIH-CARD/biomedsql.
- Abstract(参考訳): 医学研究者は、複雑な分析タスクのために大規模に構造化されたデータベースをますます頼りにしている。
しかし、現在のテキストからSQLへのシステムは、特に暗黙のドメイン推論が必要な場合、定性的な科学的質問を実行可能なSQLにマッピングするのに苦労することが多い。
実世界のバイオメディカル知識ベース上でテキストからSQL生成の科学的推論を評価するために設計された最初のベンチマークであるBiomedSQLを紹介する。
BiomedSQLは、68,000の質問/SQLクエリ/回答トリプルで構成されており、このトリプルは、遺伝子消失関連、オミクスデータからの因果推論、薬物承認記録を統合した、調和したBigQueryナレッジベースに基づいている。
それぞれの質問は、構文翻訳のみに頼るのではなく、ゲノム全体の重要なしきい値、効果指向性、試行フェーズフィルタリングといったドメイン固有の基準を推論するモデルを必要とする。
我々は、戦略や相互作用のパラダイムを推し進めるオープンソースとクローズドソースのLCMについて評価する。
GPT-o3-miniは59.0%の実行精度を達成し、カスタムマルチステップエージェントBMSQLは62.6%に達し、どちらもエキスパートベースラインの90.0%を大きく下回っている。
BiomedSQLは、構造化されたバイオメディカル知識ベースに対する堅牢な推論を通じて科学的発見を支援することができる、テキストからSQLまでの新しい基盤を提供する。
私たちのデータセットはhttps://huggingface.co/datasets/NIH-CARD/BiomedSQLで公開されています。
関連論文リスト
- LogicCat: A Chain-of-Thought Text-to-SQL Benchmark for Multi-Domain Reasoning Challenges [13.400649304012179]
データセットは4,038の英語質問で構成され、それぞれがユニークなsqlクエリと組み合わせられ、12,114の推論アノテーションが付属し、さまざまなドメインにわたって45のデータベースにまたがる。
LogicCatは最先端モデルの難しさを大幅に増し、最高実行精度は14.96%に達した。
スパイダーとBIRDにおける主要な公開メソッドのベンチマークは、LogicCatがもたらす課題をさらに強調し、堅牢で推論駆動のテキスト・トゥ・ファンクシステムの研究を進めるための重要な機会を強調している。
論文 参考訳(メタデータ) (2025-05-24T15:23:43Z) - OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale [31.852909145101677]
本研究では,大規模で高品質で多様なデータセットを人間の介入なしに自動合成する,新しいスケーラブルなテキスト・データ・フレームワークを提案する。
16,000以上の合成データベースにまたがる250万のサンプルを含む,最初の100万規模のテキスト・データセットであるSyn-2.5Mを紹介した。
我々は,7B,14B,32Bの3つのサイズで利用可能な,オープンソースの強力なテキスト・ツー・モデルであるOmniを開発した。
論文 参考訳(メタデータ) (2025-03-04T03:30:56Z) - RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - SelECT-SQL: Self-correcting ensemble Chain-of-Thought for Text-to-SQL [3.422309388045878]
SelECT-は、チェーン・オブ・シンク、自己補正、アンサンブルの手法をアルゴリズムで組み合わせた、新しいインコンテキスト学習ソリューションである。
具体的には、GPTをベースLLMとして使用する場合、SelECT-Turboはスパイダーリーダーボードの開発セット上で84.2%の実行精度を達成する。
論文 参考訳(メタデータ) (2024-09-16T05:40:18Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - Towards Understanding the Generalization of Medical Text-to-SQL Models
and Datasets [46.12592636378064]
医療分野におけるテキスト・ツー・ジェネレーションの解決にはまだまだ長い道のりがある。
精度は92%から28%に低下し,性能が大幅に低下した現状の言語モデルを評価した。
本稿では,関係言語モデルの一般化性を改善するために,新たなデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T20:26:30Z) - On the Structural Generalization in Text-to-SQL [36.56043090037171]
データベーススキーマ(DS)の構造的多様性について検討する。
本稿では,新しいテキスト間構造データを生成するフレームワークを提案する。
合成試料を用いたテキスト・ツー・モデルの評価における顕著な性能低下
論文 参考訳(メタデータ) (2023-01-12T02:52:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。