Fugu-MT 論文翻訳(概要): High-Fidelity And Complex Test Data Generation For Real-World SQL Code Generation Services

論文の概要: High-Fidelity And Complex Test Data Generation For Real-World SQL Code Generation Services

arxiv url: http://arxiv.org/abs/2504.17203v1
Date: Thu, 24 Apr 2025 02:27:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:53.226398
Title: High-Fidelity And Complex Test Data Generation For Real-World SQL Code Generation Services
Title（参考訳）: 実世界のSQLコード生成サービスのための高忠実で複雑なテストデータ生成
Authors: Shivasankari Kannan, Yeounoh Chung, Amita Gondi, Tristan Swadell, Fatma Ozcan,
Abstract要約: 高忠実度テストデータの需要は、生産データへのアクセスがほとんど制限されている産業環境で最重要である。従来のデータ生成手法は、しばしば不足し、低忠実さと複雑なデータ構造をモデル化する能力に悩まされる。我々は、LLM(Large Language Models)を活用し、戦略的事前処理と後処理のステップを取り入れることで、現実的な高忠実性テストデータを生成することを実証した。
参考スコア（独自算出の注目度）: 0.9067668231347065
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The demand for high-fidelity test data is paramount in industrial settings where access to production data is largely restricted. Traditional data generation methods often fall short, struggling with low-fidelity and the ability to model complex data structures and semantic relationships that are critical for testing complex SQL code generation services like Natural Language to SQL (NL2SQL). In this paper, we address the critical need for generating syntactically correct and semantically ``meaningful'' mock data for complex schema that includes columns with nested structures that we frequently encounter in Google SQL code generation workloads. We highlight the limitations of existing approaches used in production, particularly their inability to handle large and complex schema, as well as the lack of semantically coherent test data that lead to limited test coverage. We demonstrate that by leveraging Large Language Models (LLMs) and incorporating strategic pre- and post-processing steps, we can generate realistic high-fidelity test data that adheres to complex structural constraints and maintains semantic integrity to the test targets (SQL queries/functions). This approach supports comprehensive testing of complex SQL queries involving joins, aggregations, and even deeply nested subqueries, ensuring robust evaluation of SQL code generation services, like NL2SQL and SQL Code Assistant services. Our results demonstrate the practical utility of an out-of-the-box LLM (\textit{gemini}) based test data generation for industrial SQL code generation services where generating realistic test data is essential due to the frequent unavailability of production datasets.
Abstract（参考訳）: 高忠実度テストデータの需要は、生産データへのアクセスがほとんど制限されている産業環境で最重要である。従来のデータ生成方法は、低忠実さと複雑なデータ構造や、自然言語からSQL(NL2SQL)のような複雑なSQLコード生成サービスをテストする上で重要なセマンティックな関係をモデル化する能力に悩まされている。本稿では,Google SQLのコード生成ワークロードで頻繁に発生するネスト構造を持つ列を含む複雑なスキーマに対して,構文的に正確かつ意味的に ‘ `` meaningful' なモックデータを生成するための重要なニーズに対処する。運用で使用されている既存のアプローチの制限、特に大規模で複雑なスキーマを扱うことができないこと、そして、限定的なテストカバレッジにつながるセマンティックな一貫性のあるテストデータが欠如していることを強調します。我々は、LLM(Large Language Models)を活用して、戦略的前処理と後処理のステップを取り入れることで、複雑な構造的制約に固執し、テストターゲット(SQLクエリ/ファンクション)に対するセマンティックな整合性を維持する、現実的な高忠実なテストデータを生成することを実証した。このアプローチは、結合、集約、さらに深くネストされたサブクエリを含む複雑なSQLクエリの包括的なテストをサポートし、NL2SQLやSQL Code AssistantサービスのようなSQLコード生成サービスの堅牢な評価を保証する。実運用データセットの頻繁な利用不可のため,現実的なテストデータ生成が不可欠である産業用SQLコード生成サービスにおいて,アウトオブボックス LLM (\textit{gemini}) ベースのテストデータ生成の実用性を実証した。

関連論文リスト

EvolSQL: Structure-Aware Evolution for Scalable Text-to-SQL Data Synthesis [25.689983072200047]
Evolは、クエリをよりリッチでセマンティックに多様な形式に進化させる構造対応のデータ合成フレームワークである。 7Bモデルは、データの1/18のみを使用して、はるかに大きなSynデータセットでトレーニングされたモデルよりも優れています。
論文参考訳（メタデータ） (2026-01-08T12:19:50Z)
Text-to-SQL as Dual-State Reasoning: Integrating Adaptive Context and Progressive Generation [54.53145282349042]
DSR-sourced, textbfDual-textbfS textbfReasoning frameworkを導入する。ポストトレーニングやインコンテキストの例がなければ、DSR-sourcedは競合性能を達成し、スパイダー2.0-Snowで35.28%、BIRD開発で68.32%に達する。
論文参考訳（メタデータ） (2025-11-26T13:52:50Z)
Text to Query Plans for Question Answering on Large Tables [4.917892629916144]
本稿では,自然言語クエリをクエリ計画に変換する新しいフレームワークを提案する。主成分分析や異常検出などの複雑な解析機能を実現する。我々は、標準データベースと大規模科学表の両方の実験を通じて、我々のフレームワークを検証する。
論文参考訳（メタデータ） (2025-08-26T07:35:26Z)
Text2VectorSQL: Towards a Unified Interface for Vector Search and SQL Queries [36.92547259037192]
構造化されていないデータの拡散は、従来のデータベースインフラに根本的な課題をもたらす。 Text-to-BIRDは構造化データへのアクセスを民主化しているが、セマンティッククエリやマルチモーダルクエリを解釈することはできない。構造化データと非構造化データの両方をシームレスに問合せする統合自然言語を確立するための新しいタスクであるText2 Vectorを導入・形式化する。
論文参考訳（メタデータ） (2025-06-29T03:17:42Z)
HI-SQL: Optimizing Text-to-SQL Systems through Dynamic Hint Integration [1.3927943269211591]
テキスト・ツー・ジェネレーションは自然言語とデータベースのギャップを埋め、ユーザーは専門知識を必要とせずにデータをクエリできる。履歴クエリログを利用した新しいヒント生成機構を組み込んだパイプラインHI-theを提案する。先行クエリを解析することにより、マルチテーブルおよびネストされた操作の複雑さを扱うことに焦点を当てたコンテキストヒントを生成する。提案手法は,LCM生成クエリのクエリ精度を大幅に向上し,呼び出しやレイテンシの面で効率性を確保した。
論文参考訳（メタデータ） (2025-06-11T12:07:55Z)
Enhancing Accuracy and Maintainability in Nuclear Plant Data Retrieval: A Function-Calling LLM Approach Over NL-to-SQL [0.0]
原子力発電所から運用データを取得するには、それが支援する決定の臨界性のために、極めて正確かつ透明性が必要である。伝統的に、SQLへの自然言語(NL-to-)アプローチは、そのようなデータをクエリするために検討されてきた。本稿では,これらの課題に対処するために,関数呼び出し型大言語モデル(LLM)を活用するための代替パラダイムを提案する。
論文参考訳（メタデータ） (2025-06-10T12:55:07Z)
TinySQL: A Progressive Text-to-SQL Dataset for Mechanistic Interpretability Research [0.0]
本研究では,おもちゃのタスクの形式的構造と実世界の複雑さを組み合わせることで,テキスト・ツー・ジェネレーションを学習の理想的なタスクとして提案する。最小回路の識別にはエッジパッチやスパースオートエンコーダなどの解釈可能性技術を適用する。私たちの研究は、構造化され、段階的に複雑な設定における解釈可能性メソッドの探索と比較のための堅牢なフレームワークを提供します。
論文参考訳（メタデータ） (2025-03-17T01:47:50Z)
LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。 LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。 LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-04T00:47:52Z)
Text-to-SQL Domain Adaptation via Human-LLM Collaborative Data Annotation [26.834687657847454]
テキスト-to-sqlモデルは、現実世界のアプリケーションでますます採用されている。このようなモデルを現実世界にデプロイするには、特定のアプリケーションで使用される高度に専門化されたデータベーススキーマにそれらを適用する必要があることが多い。既存のtext-to-sqlモデルは、新しいスキーマに適用した場合、大幅なパフォーマンス低下を経験する。スキーマの進化のための高品質なテキスト間データを継続的に取得することは、現実世界のシナリオでは違法に高価である。
論文参考訳（メタデータ） (2025-02-21T22:32:35Z)
Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文参考訳（メタデータ） (2025-02-16T17:01:48Z)
EpiCoder: Encompassing Diversity and Complexity in Code Generation [49.170195362149386]
抽象構文木(AST)にヒントを得た新しい特徴木ベース合成フレームワークを提案する。コードの構文構造をキャプチャするASTとは異なり、私たちのフレームワークはコード要素間のセマンティックな関係をモデル化します。広く使われているベースモデルを微調整してEpiCoderシリーズを作成し、関数レベルとファイルレベルの両方で最先端のパフォーマンスを実現しました。
論文参考訳（メタデータ） (2025-01-08T18:58:15Z)
Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。 GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-02T17:21:51Z)
Synthesizing Text-to-SQL Data from Weak and Strong LLMs [68.69270834311259]
オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキスト・トゥ・タスクにおいて依然として課題である。より大規模で強力なモデルによって生成されたデータと、より小さく、不整合なモデルによって生成されたエラー情報データを組み合わせた合成データアプローチを導入する。
論文参考訳（メタデータ） (2024-08-06T15:40:32Z)
UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文参考訳（メタデータ） (2024-06-23T06:58:55Z)
CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
効率的でスケーラブルなテキスト・ツー・クエリのためのフレームワークであるCHESSを紹介します。特殊エージェントは4つあり、それぞれが上記の課題の1つをターゲットにしている。私たちのフレームワークは、さまざまなデプロイメント制約に適応する機能を提供する。
論文参考訳（メタデータ） (2024-05-27T01:54:16Z)
CodeS: Towards Building Open-source Language Models for Text-to-SQL [42.11113113574589]
1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。 CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
論文参考訳（メタデータ） (2024-02-26T07:00:58Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
On the Structural Generalization in Text-to-SQL [36.56043090037171]
データベーススキーマ(DS)の構造的多様性について検討する。本稿では,新しいテキスト間構造データを生成するフレームワークを提案する。合成試料を用いたテキスト・ツー・モデルの評価における顕著な性能低下
論文参考訳（メタデータ） (2023-01-12T02:52:51Z)
Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-17T02:53:21Z)
SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。 5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文参考訳（メタデータ） (2022-09-14T06:27:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。