論文の概要: Text-to-SQL Oriented to the Process Mining Domain: A PT-EN Dataset for Query Translation
- arxiv url: http://arxiv.org/abs/2509.09684v1
- Date: Mon, 18 Aug 2025 01:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.712559
- Title: Text-to-SQL Oriented to the Process Mining Domain: A PT-EN Dataset for Query Translation
- Title(参考訳): プロセスマイニング領域に配向したテキストからSQL:クエリ変換のためのPT-ENデータセット
- Authors: Bruno Yui Yamate, Thais Rodrigues Neubauer, Marcelo Fantinato, Sarajane Marques Peres,
- Abstract要約: 本稿では,プロセスマイニング領域におけるテキスト・ツー・フォー・タスクのベンチマークデータセットであるtext-2--4-PMを紹介する。
データセットは、人為的なパラフレーズ、205sql文、および10の修飾子を含む1,655の自然言語発話からなる。
その結果,テキスト2--4-PMはテキスト・ツー・フォーの実装の評価をサポートし,セマンティック・パーシングや他の自然言語処理タスクに広く適用可能であることがわかった。
- 参考スコア(独自算出の注目度): 0.10499611180329804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces text-2-SQL-4-PM, a bilingual (Portuguese-English) benchmark dataset designed for the text-to-SQL task in the process mining domain. Text-to-SQL conversion facilitates natural language querying of databases, increasing accessibility for users without SQL expertise and productivity for those that are experts. The text-2-SQL-4-PM dataset is customized to address the unique challenges of process mining, including specialized vocabularies and single-table relational structures derived from event logs. The dataset comprises 1,655 natural language utterances, including human-generated paraphrases, 205 SQL statements, and ten qualifiers. Methods include manual curation by experts, professional translations, and a detailed annotation process to enable nuanced analyses of task complexity. Additionally, a baseline study using GPT-3.5 Turbo demonstrates the feasibility and utility of the dataset for text-to-SQL applications. The results show that text-2-SQL-4-PM supports evaluation of text-to-SQL implementations, offering broader applicability for semantic parsing and other natural language processing tasks.
- Abstract(参考訳): 本稿では,プロセスマイニング領域におけるテキスト-SQLタスク用に設計されたバイリンガル(ポルトガル語-英語)ベンチマークデータセットであるtext-2-SQL-4-PMを紹介する。
テキストからSQLへの変換により、データベースの自然言語クエリが容易になり、SQLの専門知識のないユーザでもアクセシビリティが向上し、専門家の生産性も向上する。
text-2-SQL-4-PMデータセットは、特別な語彙やイベントログから派生した単一テーブルリレーショナル構造を含む、プロセスマイニングのユニークな課題に対処するためにカスタマイズされる。
データセットは、人為的なパラフレーズ、205のSQLステートメント、10の修飾子を含む1,655の自然言語発話で構成されている。
メソッドには、専門家による手作業によるキュレーション、専門的な翻訳、タスクの複雑さの微妙な分析を可能にする詳細なアノテーションプロセスが含まれる。
さらに、GPT-3.5 Turboを使ったベースラインスタディでは、テキストからSQLアプリケーションへのデータセットの実現可能性と有用性を示している。
その結果,テキスト2-SQL-4-PMはテキストからSQLへの実装の評価をサポートし,セマンティック解析や自然言語処理タスクに広く適用可能であることがわかった。
関連論文リスト
- Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。
この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。
また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文 参考訳(メタデータ) (2025-02-16T17:01:48Z) - A Survey of Text-to-SQL in the Era of LLMs: Where are we, and where are we going? [32.84561352339466]
我々は,Large Language Models (LLMs) を利用したテキスト翻訳技術についてレビューする。
LLM時代におけるテキスト・ツー・アセスメントの研究課題とオープンな課題について論じる。
論文 参考訳(メタデータ) (2024-08-09T14:59:36Z) - A Survey on Employing Large Language Models for Text-to-SQL Tasks [9.527891544418805]
本稿では、よく知られたデータセットで評価された手法と様々なモデルについて、全体的な分析を行う。
この分野での課題と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-07-21T14:48:23Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - SeSQL: Yet Another Large-scale Session-level Chinese Text-to-SQL Dataset [39.78074639729293]
CHASEには、スクラッチ(CHASE-C)から手動で構築された2,003セッションと、英語から翻訳された3,456セッション(CHASE-T)が含まれている。
この2つの部分は、トレーニングと評価データとして非常に異なっており、互換性がないことが分かりました。
本研究では,5,028のセッションをスクラッチから手作業で構築した,さらに大規模なセッションレベルのテキスト・ツー・パースデータセットであるSeを中国語で紹介する。
論文 参考訳(メタデータ) (2022-08-26T15:11:10Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z) - "What Do You Mean by That?" A Parser-Independent Interactive Approach
for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。
PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-11-09T02:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。