論文の概要: Enhancing Few-shot Text-to-SQL Capabilities of Large Language Models: A
Study on Prompt Design Strategies
- arxiv url: http://arxiv.org/abs/2305.12586v1
- Date: Sun, 21 May 2023 22:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 19:26:46.606346
- Title: Enhancing Few-shot Text-to-SQL Capabilities of Large Language Models: A
Study on Prompt Design Strategies
- Title(参考訳): 大規模言語モデルのテキスト-SQL機能向上 : プロンプト設計戦略に関する研究
- Authors: Linyong Nan, Yilun Zhao, Weijin Zou, Narutatsu Ri, Jaesung Tae, Ellen
Zhang, Arman Cohan, Dragomir Radev
- Abstract要約: In-context Learning (ICL) は、様々な自然言語処理タスクに対する新しいアプローチとして登場した。
本稿では,構造化知識源を利用した解答課題を問うために,この手法を拡張することを目的とする。
- 参考スコア(独自算出の注目度): 20.15851744895469
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In-context learning (ICL) has emerged as a new approach to various natural
language processing tasks, utilizing large language models (LLMs) to make
predictions based on context that has been supplemented with a few examples or
task-specific instructions. In this paper, we aim to extend this method to
question answering tasks that utilize structured knowledge sources, and improve
Text-to-SQL systems by exploring various prompt design strategies for employing
LLMs. We conduct a systematic investigation into different demonstration
selection methods and optimal instruction formats for prompting LLMs in the
Text-to-SQL task. Our approach involves leveraging the syntactic structure of
an example's SQL query to retrieve demonstrations, and we demonstrate that
pursuing both diversity and similarity in demonstration selection leads to
enhanced performance. Furthermore, we show that LLMs benefit from
database-related knowledge augmentations. Our most effective strategy
outperforms the state-of-the-art system by 2.5 points (Execution Accuracy) and
the best fine-tuned system by 5.1 points on the Spider dataset. These results
highlight the effectiveness of our approach in adapting LLMs to the Text-to-SQL
task, and we present an analysis of the factors contributing to the success of
our strategy.
- Abstract(参考訳): In-context Learning (ICL) は、様々な自然言語処理タスクに対する新しいアプローチとして現れ、大規模言語モデル(LLM)を用いて、いくつかの例やタスク固有の命令を補足したコンテキストに基づいて予測を行う。
本稿では,構造化知識源を利用した解答タスクに対する質問を拡張し,LLMを用いた各種設計手法を探索し,テキスト・トゥ・SQLシステムを改善することを目的とする。
テキスト・トゥ・SQLタスクにおける LLM の促進を目的とした,異なる実演選択手法と最適命令形式を体系的に検討する。
提案手法では,例のsqlクエリの構文構造を活用して実演を検索し,実演選択における多様性と類似性の両方を追求することで,パフォーマンスが向上することを示す。
さらに,LLMはデータベース関連知識強化の恩恵を受けることを示す。
我々の最も効果的な戦略は、最先端のシステムを2.5ポイント(実行精度)で、最高の微調整システムをスパイダーデータセットで5.1ポイント上回る。
これらの結果は,LLMをテキスト・トゥ・SQLタスクに適用するためのアプローチの有効性を強調し,戦略の成功に寄与する要因について分析した。
関連論文リスト
- Towards a Unified View of Preference Learning for Large Language Models: A Survey [88.66719962576005]
大きな言語モデル(LLM)は、非常に強力な能力を示す。
成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。
選好学習のすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-09-04T15:11:55Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Large Language Models Know What Makes Exemplary Contexts [42.90814615222177]
In-context Learning (ICL) は、Large Language Model (LLM) の発展において重要な機能であることが証明されている。
本稿では,LLMのための統合フレームワークを提案する。このフレームワークにより,影響力のあるインコンテキストのサンプルを自己選択してコンテキストを構成することができる。
論文 参考訳(メタデータ) (2024-08-14T12:32:41Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Benchmarking the Text-to-SQL Capability of Large Language Models: A
Comprehensive Evaluation [33.41556606816004]
大規模言語モデル(LLM)は、テキストからタスクへ進むための強力なツールとして登場した。
最適なプロンプトテンプレートと設計フレームワークについてはまだ合意が得られていない。
既存のベンチマークでは、テキスト・ツー・プロセスの様々なサブタスクにまたがるLCMのパフォーマンスが不十分である。
論文 参考訳(メタデータ) (2024-03-05T13:23:48Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - How to Prompt LLMs for Text-to-SQL: A Study in Zero-shot, Single-domain,
and Cross-domain Settings [12.288808992805494]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクにおいて顕著な能力を示した。
従来の研究により、LLMは様々な実証検索戦略と中間的推論を取り入れて性能を向上させるようになった。
論文 参考訳(メタデータ) (2023-05-19T17:43:58Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。