論文の概要: Benchmarking Text-to-Python against Text-to-SQL: The Impact of Explicit Logic and Ambiguity
- arxiv url: http://arxiv.org/abs/2601.15728v1
- Date: Thu, 22 Jan 2026 07:54:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.533652
- Title: Benchmarking Text-to-Python against Text-to-SQL: The Impact of Explicit Logic and Ambiguity
- Title(参考訳): Text-to-PythonとText-to-SQLのベンチマーク: 明示論理と曖昧さの影響
- Authors: Hangle Hu, Chenyu Hou, Bin Cao, Ruizhe Li,
- Abstract要約: 本稿では,クロスパラダイム評価のためのベンチマークであるBIRD-Pythonを紹介する。
我々は、Pythonが明示的な手続き論理を必要とすることを示し、ユーザの意図に非常に敏感であることを示します。
本稿では、潜在ドメイン知識を生成プロセスに組み込むことで曖昧さを解消する論理補完フレームワーク(LCF)を提案する。
- 参考スコア(独自算出の注目度): 5.794032059676749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Text-to-SQL remains the dominant approach for database interaction, real-world analytics increasingly require the flexibility of general-purpose programming languages such as Python or Pandas to manage file-based data and complex analytical workflows. Despite this growing need, the reliability of Text-to-Python in core data retrieval remains underexplored relative to the mature SQL ecosystem. To address this gap, we introduce BIRD-Python, a benchmark designed for cross-paradigm evaluation. We systematically refined the original dataset to reduce annotation noise and align execution semantics, thereby establishing a consistent and standardized baseline for comparison. Our analysis reveals a fundamental paradigmatic divergence: whereas SQL leverages implicit DBMS behaviors through its declarative structure, Python requires explicit procedural logic, making it highly sensitive to underspecified user intent. To mitigate this challenge, we propose the Logic Completion Framework (LCF), which resolves ambiguity by incorporating latent domain knowledge into the generation process. Experimental results show that (1) performance differences primarily stem from missing domain context rather than inherent limitations in code generation, and (2) when these gaps are addressed, Text-to-Python achieves performance parity with Text-to-SQL. These findings establish Python as a viable foundation for analytical agents-provided that systems effectively ground ambiguous natural language inputs in executable logical specifications. Resources are available at https://anonymous.4open.science/r/Bird-Python-43B7/.
- Abstract(参考訳): Text-to-SQLは依然としてデータベースインタラクションの主要なアプローチだが、実世界の分析では、ファイルベースのデータと複雑な分析ワークフローを管理するために、PythonやPandasといった汎用プログラミング言語の柔軟性がますます求められている。
このようなニーズにもかかわらず、コアデータ検索におけるText-to-Pythonの信頼性は、成熟したSQLエコシステムと比較して過小評価されている。
このギャップに対処するために,クロスパラダイム評価のためのベンチマークであるBIRD-Pythonを紹介する。
我々は、アノテーションノイズを低減し、実行セマンティクスを調整するために、元のデータセットを体系的に洗練し、比較のための一貫性と標準化されたベースラインを確立した。
SQLは宣言的構造を通じて暗黙的なDBMSの振る舞いを利用するのに対して、Pythonは明示的な手続き論理を必要とするため、不特定ユーザの意図に非常に敏感である。
この課題を軽減するために我々は、潜在ドメイン知識を生成プロセスに組み込むことで曖昧さを解消するLogic Completion Framework(LCF)を提案する。
実験結果から,(1)コード生成に固有の制約ではなく,ドメインコンテキストの欠如が主な原因であること,(2)これらのギャップに対処する場合,Text-to-PythonはText-to-SQLと同等のパフォーマンスを実現することがわかった。
これらの知見は,Pythonを解析エージェントの有効な基盤として確立し,システムは実行可能な論理仕様において,あいまいな自然言語入力を効果的に基礎付けることを提案した。
リソースはhttps://anonymous.4open.science/r/Bird-Python-43B7/で入手できる。
関連論文リスト
- Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。
ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文 参考訳(メタデータ) (2025-11-26T13:52:50Z) - STARQA: A Question Answering Dataset for Complex Analytical Reasoning over Structured Databases [27.66819120859756]
SARQAは,3つの特殊リレーショナル・ドメイン・データベース上での複雑な解析的推論質問と回答の公開人為的データセットである。
本稿では,3つの特殊リレーショナル・ドメイン・データベース上での複雑な解析的推論質問と回答の公開人為的データセットであるSTARQAを紹介する。
論文 参考訳(メタデータ) (2025-09-23T19:26:16Z) - Text2VectorSQL: Towards a Unified Interface for Vector Search and SQL Queries [36.92547259037192]
構造化されていないデータの拡散は、従来のデータベースインフラに根本的な課題をもたらす。
Text-to-BIRDは構造化データへのアクセスを民主化しているが、セマンティッククエリやマルチモーダルクエリを解釈することはできない。
構造化データと非構造化データの両方をシームレスに問合せする統合自然言語を確立するための新しいタスクであるText2 Vectorを導入・形式化する。
論文 参考訳(メタデータ) (2025-06-29T03:17:42Z) - LogicCat: A Chain-of-Thought Text-to-SQL Benchmark for Complex Reasoning [12.249447967086828]
LogicCatは、複雑な推論とチェーン・オブ・ソート解析のために特別に設計された最初のText-to-senseベンチマークデータセットである。
LogicCatは現在の最先端モデルのタスク難易度を33.20%に向上させる。
論文 参考訳(メタデータ) (2025-05-24T15:23:43Z) - Enhancing Text-to-SQL Translation for Financial System Design [5.248014305403357]
様々なNLPタスクの最先端技術を実現したLarge Language Models (LLMs) について検討する。
本稿では,関係クエリ間の類似性を適切に測定する2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-22T14:34:19Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - "What Do You Mean by That?" A Parser-Independent Interactive Approach
for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。
PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-11-09T02:14:33Z) - Photon: A Robust Cross-Domain Text-to-SQL System [189.1405317853752]
私たちは、マッピングを即座に決定できない自然言語入力にフラグを付けることができる、堅牢でモジュール化されたクロスドメインなNLIDBPhotonを紹介します。
提案手法は,翻訳不能なユーザ入力に対して,テキストからネイティブシステムへのロバストさを効果的に向上させる。
論文 参考訳(メタデータ) (2020-07-30T07:44:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。