論文の概要: LLM-Driven Data Generation and a Novel Soft Metric for Evaluating Text-to-SQL in Aviation MRO
- arxiv url: http://arxiv.org/abs/2506.13785v1
- Date: Wed, 11 Jun 2025 04:04:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.133513
- Title: LLM-Driven Data Generation and a Novel Soft Metric for Evaluating Text-to-SQL in Aviation MRO
- Title(参考訳): LLM駆動型データ生成と航空MROにおけるテキスト-SQL評価のための新しいソフトメトリック
- Authors: Patrick Sutanto, Jonathan Kenrick, Max Lorenz, Joan Santoso,
- Abstract要約: そこで本研究では,F1スコアベースの'ソフト'メトリクスを新たに導入し,実測値と実測値の重なりを定量化する。
我々は,MROデータベース上での実証的な評価を通じて,我々の貢献を実証する。
- 参考スコア(独自算出の注目度): 0.6374763930914525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of Large Language Models (LLMs) to text-to-SQL tasks promises to democratize data access, particularly in critical industries like aviation Maintenance, Repair, and Operation (MRO). However, progress is hindered by two key challenges: the rigidity of conventional evaluation metrics such as execution accuracy, which offer coarse, binary feedback, and the scarcity of domain-specific evaluation datasets. This paper addresses these gaps. To enable more nuanced assessment, we introduce a novel F1-score-based 'soft' metric that quantifies the informational overlap between generated and ground-truth SQL results. To address data scarcity, we propose an LLM-driven pipeline that synthesizes realistic question-SQL pairs from database schemas. We demonstrate our contributions through an empirical evaluation on an authentic MRO database. Our experiments show that the proposed soft metric provides more insightful performance analysis than strict accuracy, and our data generation technique is effective in creating a domain-specific benchmark. Together, these contributions offer a robust framework for evaluating and advancing text-to-SQL systems in specialized environments.
- Abstract(参考訳): 大規模言語モデル(LLM)のテキストからSQLへのタスクへの適用は、特に航空整備、修復、運用(MRO)といった重要な産業において、データアクセスの民主化を約束する。
しかし、進捗は、粗い、バイナリフィードバックを提供する実行精度、ドメイン固有の評価データセットの不足など、従来の評価指標の剛性という2つの大きな課題によって妨げられている。
本稿ではこれらのギャップに対処する。
よりニュアンスな評価を可能にするため,F1スコアベースの「ソフト」メトリックを導入し,生成したSQLと地上のSQLの重なり合いを定量化する。
データ不足に対処するために,データベーススキーマから現実的な質問-SQLペアを合成するLLM駆動パイプラインを提案する。
我々は,MROデータベース上での実証的な評価を通じて,我々の貢献を実証する。
実験の結果,提案手法は厳密な精度よりも,より洞察に富んだ性能解析を提供し,データ生成技術はドメイン固有のベンチマークを作成するのに有効であることがわかった。
これらのコントリビューションは、特殊環境でのテキスト-SQLシステムの評価と進化のための堅牢なフレームワークを提供する。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。
この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。
また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文 参考訳(メタデータ) (2025-02-16T17:01:48Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - Enhancing Text-to-SQL Translation for Financial System Design [5.248014305403357]
様々なNLPタスクの最先端技術を実現したLarge Language Models (LLMs) について検討する。
本稿では,関係クエリ間の類似性を適切に測定する2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-22T14:34:19Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。