論文の概要: Semantic Captioning: Benchmark Dataset and Graph-Aware Few-Shot In-Context Learning for SQL2Text
- arxiv url: http://arxiv.org/abs/2501.03166v1
- Date: Mon, 06 Jan 2025 17:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:07.403400
- Title: Semantic Captioning: Benchmark Dataset and Graph-Aware Few-Shot In-Context Learning for SQL2Text
- Title(参考訳): セマンティックキャプション:SQL2Textのベンチマークデータセットとグラフ対応Few-Shotインコンテキスト学習
- Authors: Ali Al-Lawati, Jason Lucas, Prasenjit Mitra,
- Abstract要約: 大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を示した。
逆のプロセス コードを自然言語に翻訳 セマンティックキャプションと呼ばれ あまり注目されていない
本稿では,sql クエリのキャプション (2Text) に着目し,sql クエリの理解と説明に関する重要なニーズに対処する。
我々は、異なるサンプル選択法に基づいて、インコンテクスト学習(ICL)を用いて実験を行う。
- 参考スコア(独自算出の注目度): 3.4688186440441893
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance in various NLP tasks, including semantic parsing, which trans lates natural language into formal code representations. However, the reverse process, translating code into natural language, termed semantic captioning, has received less attention. This task is becoming increasingly important as LLMs are integrated into platforms for code generation, security analysis, and educational purposes. In this paper, we focus on the captioning of SQL query (SQL2Text) to address the critical need for understanding and explaining SQL queries in an era where LLM-generated code poses potential security risks. We repurpose Text2SQL datasets for SQL2Text by introducing an iterative ICL prompt using GPT-4o to generate multiple additional utterances, which enhances the robustness of the datasets for the reverse task. We conduct our experiments using in-context learning (ICL) based on different sample selection methods, emphasizing smaller, more computationally efficient LLMs. Our findings demonstrate that leveraging the inherent graph properties of SQL for ICL sample selection significantly outperforms random selection by up to 39% on BLEU score and provides better results than alternative methods. Dataset and codes are published: \url{https://github.com/aliwister/ast-icl}.
- Abstract(参考訳): 大きな言語モデル(LLM)は、自然言語を形式的なコード表現に変換する意味解析を含む様々なNLPタスクにおいて顕著な性能を示している。
しかし、コードから自然言語に翻訳する逆のプロセスは、意味的なキャプションと呼ばれるが、あまり注目されていない。
LLMがコード生成、セキュリティ分析、教育目的のプラットフォームに統合されるにつれて、このタスクはますます重要になってきています。
本稿では,LLM生成コードが潜在的なセキュリティリスクをもたらす時代において,SQLクエリの理解と説明が重要なニーズに対処するためのSQLクエリのキャプション(SQL2Text)に焦点を当てる。
GPT-4o を用いた反復 ICL プロンプトを導入して,SQL2Text 用の Text2SQL データセットを再利用する。
我々は,より小さく,より計算効率のよいLLMに着目し,異なるサンプル選択法に基づくインコンテキスト学習(ICL)を用いて実験を行った。
以上の結果から, ICLサンプル選択におけるSQLの固有グラフ特性の活用はBLEUスコアにおいて最大39%の確率選択を著しく上回り, 代替手法よりも優れた結果が得られた。
データセットとコードは、 \url{https://github.com/aliwister/ast-icl} として公開されている。
関連論文リスト
- RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - PTD-SQL: Partitioning and Targeted Drilling with LLMs in Text-to-SQL [54.304872649870575]
大規模言語モデル(LLM)は、テキスト・トゥ・センス・タスクの強力なツールとして登場した。
本研究では,クエリグループパーティショニングを用いることで,単一問題に特有の思考プロセスの学習に集中できることを示す。
論文 参考訳(メタデータ) (2024-09-21T09:33:14Z) - Tabular Transfer Learning via Prompting LLMs [52.96022335067357]
大規模言語モデル(LLM)を用いたラベル付き(あるいは異種)ソースデータを利用した新しいフレームワークPrompt to Transfer (P2T)を提案する。
P2Tは、ターゲットタスク機能と強く相関しているソースデータセットの列の特徴を特定し、ターゲットタスクに関連する例を作成し、プロンプトの擬似宣言を生成する。
論文 参考訳(メタデータ) (2024-08-09T11:30:52Z) - DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning [19.93800175353809]
DeTrieverは、隠れた状態の重み付けを学習する新しいデモ検索フレームワークである。
提案手法は1ショットNL2タスクにおける最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2024-06-12T06:33:54Z) - PURPLE: Making a Large Language Model a Better SQL Writer [14.627323505405327]
NL2タスクに必要な論理演算子構成を含む実演を検索することで精度を向上させるPURPLEを提案する。
PURPLEは、一般的なNL2ベンチマークの検証セット上で80.5%の正確な一致精度と87.8%の実行一致精度という、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-29T07:01:29Z) - PET-SQL: A Prompt-Enhanced Two-Round Refinement of Text-to-SQL with Cross-consistency [19.067737007347613]
スパイダーベンチマークで新しいSOTA結果が得られ、実行精度は87.6%である。
提案手法は, 87.6%の精度で, スパイダーベンチマークで新しいSOTA結果が得られる。
論文 参考訳(メタデータ) (2024-03-13T02:32:41Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。