論文の概要: SANE Schema-aware Natural-language Evaluation of Biological Data
- arxiv url: http://arxiv.org/abs/2606.04500v1
- Date: Wed, 03 Jun 2026 06:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.5863
- Title: SANE Schema-aware Natural-language Evaluation of Biological Data
- Title(参考訳): SANEスキーマを用いた生体データの自然言語評価
- Authors: Rolf Gattung, Martin Krueger, Markus Reischl,
- Abstract要約: ドメイン固有のテキスト言語評価のための新しいパラダイムであるSANE-Aware Natural Evaluationを提案する。
構造化されたプロンプトとガードレールを持つ制約付きスキーマでは、モデルのトレーニングや微調整なしに正確なクエリ生成が達成可能であることを示す。
- 参考スコア(独自算出の注目度): 0.14337588659482522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-throughput microscopy generates large, structured datasets capturing cellular responses to pharmacological perturbations, but accessing these datasets typically requires SQL expertise. Large language models offer a natural-language alternative, yet their tendency to hallucinate raises concerns about result reliability . We present SANE Schema-Aware Natural-language Evaluation, a novel paradigm for domain-specific text-to-SQL evaluation: schema-grounded, automatically generated benchmarks tied to real and specific experimental structure. SANE makes evaluation more scalable, systematic, and reproducible. Using SANE, we evaluate a few-shot large language model and show that, under constrained schemas with structured prompting and guardrails, accurate query generation is achievable without any model training or fine-tuning. Most failures stem from ambiguous or underspecified inputs and manifest as overly cautious clarification requests or answers to queries that should first be disambiguated, rather than incorrect SQL generation. These results indicate that few-shot large language models can provide reliable database access in well-defined domains when combined with schema-aware prompting.
- Abstract(参考訳): 高スループット顕微鏡は、薬理学的摂動に対する細胞応答をキャプチャする大規模な構造化データセットを生成するが、これらのデータセットにアクセスするには、通常SQLの専門知識が必要である。
大きな言語モデルは自然言語の代替手段を提供するが、その幻覚化傾向は結果の信頼性に関する懸念を提起する。
提案するSANE Schema-Aware Natural-Language Evaluationは、ドメイン固有のテキスト-SQL評価のための新しいパラダイムである。
SANEは、よりスケーラブルで、体系的で、再現可能である。
SANEを用いて、数発の大規模言語モデルを評価し、構造化されたプロンプトとガードレールを持つ制約付きスキーマの下で、正確なクエリ生成がモデルトレーニングや微調整なしで達成可能であることを示す。
ほとんどの失敗は曖昧さや不明確な入力に起因し、不正なSQL生成ではなく、最初に曖昧にすべきクエリに対する過度に慎重な明確化要求や回答として現れます。
これらの結果から,スキーマ認識プロンプトと組み合わせることで,適切に定義されたドメインにおける信頼性の高いデータベースアクセスを実現することが可能であることが示唆された。
関連論文リスト
- Agent-Agnostic Evaluation of SQL Accuracy in Production Text-to-SQL Systems [2.051598597332424]
運用環境におけるテキストからネイティブ(T2native)評価は、既存のベンチマークが対処しない根本的な課題を生じさせる。
本稿では,自然言語入力のみで動作する生産評価システムSTEFを提案する。
STEFは、フィルタアライメント、セマンティック検証、評価器の信頼性を含む合成計量を用いて、解釈可能な0から100の精度スコアを生成する。
論文 参考訳(メタデータ) (2026-04-30T15:59:28Z) - OsmT: Bridging OpenStreetMap Queries and Natural Language with Open-source Tag-aware Language Models [30.29148893930439]
我々は、自然言語と構造化クエリ言語をブリッジするためのオープンソースのタグ対応言語モデルOsmTを提案する。
本稿では,タグ検索拡張(Tag Retrieval Augmentation,TRA)機構を導入する。
また、構造化クエリを自然言語の説明に変換する逆タスクであるOverpassQL-to-Textも定義しています。
論文 参考訳(メタデータ) (2025-12-04T12:24:36Z) - From Queries to Insights: Agentic LLM Pipelines for Spatio-Temporal Text-to-SQL [8.496933324334167]
本研究では,MistralをベースとしたRellama-sqlcoder-8bによるオーケストレーションにより,簡単なテキストからActまでのベースライン(Rellama-sqlcoder-8b)を提案する。
ニューヨークと東京のチェックインで35の自然言語クエリを評価し,空間的・時間的マルチデータセット推論について検討した。
このエージェントは、データセット 91.4% 対 28.6% よりもかなり精度が高く、地図によるユーザビリティを高め、自然言語の要約を構造化する。
論文 参考訳(メタデータ) (2025-10-29T22:18:57Z) - Exploring Database Normalization Effects on SQL Generation [0.9256004093538199]
正規化は、自然言語 tosql (NL2) システムにおいて批判的であるが、しばしば見過ごされる要素である。
正規化レベルの異なる合成および実世界のデータセット上で,8つの主要な大言語モデルを評価する。
この結果から,NL2アプリケーションの最適スキーマ設計は,サポートするクエリの種類に依存することが示唆された。
論文 参考訳(メタデータ) (2025-10-02T13:11:30Z) - Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.89404347890662]
SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。
本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T11:36:09Z) - E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL [1.187832944550453]
E-Seekは、直接スキーマリンクと候補述語拡張を通じてこれらの課題に対処するように設計された、新しいパイプラインである。
E-Seekは、関連するデータベース項目(テーブル、列、値)と条件を直接質問とsql構築計画に組み込むことで、自然言語クエリを強化し、クエリとデータベース構造の間のギャップを埋める。
総合的な評価は、E-Seekが競争性能、特に66.29%の実行精度で複雑なクエリに優れていることを示している。
論文 参考訳(メタデータ) (2024-09-25T09:02:48Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。