論文の概要: You Only Read Once (YORO): Learning to Internalize Database Knowledge for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2409.12172v1
- Date: Wed, 18 Sep 2024 17:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 16:21:44.891085
- Title: You Only Read Once (YORO): Learning to Internalize Database Knowledge for Text-to-SQL
- Title(参考訳): You Only Read Once (YORO): Text-to-SQLのためのデータベース知識の内部化を学ぶ
- Authors: Hideo Kobayashi, Wuwei Lan, Peng Shi, Shuaichen Chang, Jiang Guo, Henghui Zhu, Zhiguo Wang, Patrick Ng,
- Abstract要約: 最近のソリューションでは、すべての質問に対して同じデータベーススキーマを繰り返しエンコードしているため、不要な高推論コストが発生し、しばしば重要なデータベース知識を見落としている。
トレーニング中のテキストからモデルへのパラメトリックな知識にデータベースの知識を直接内包し、推論中のスキーマエンコーディングの必要性を解消する新しいパラダイムであるYou Only Read Once (YORO)を提案する。
- 参考スコア(独自算出の注目度): 43.84888579598636
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While significant progress has been made on the text-to-SQL task, recent solutions repeatedly encode the same database schema for every question, resulting in unnecessary high inference cost and often overlooking crucial database knowledge. To address these issues, we propose You Only Read Once (YORO), a novel paradigm that directly internalizes database knowledge into the parametric knowledge of a text-to-SQL model during training and eliminates the need for schema encoding during inference. YORO significantly reduces the input token length by 66%-98%. Despite its shorter inputs, our empirical results demonstrate YORO's competitive performances with traditional systems on three benchmarks as well as its significant outperformance on large databases. Furthermore, YORO excels in handling questions with challenging value retrievals such as abbreviation.
- Abstract(参考訳): テキストからSQLへのタスクでは大きな進歩があったが、最近のソリューションでは、すべての質問に対して同じデータベーススキーマを繰り返しエンコードしているため、不要な高推論コストが発生し、しばしば重要なデータベース知識を見落としている。
これらの問題に対処するために、トレーニング中にデータベース知識を直接パラメトリックな知識として内部化し、推論中にスキーマエンコーディングを不要にする新しいパラダイムであるYou Only Read Once (YORO)を提案する。
YOROは入力トークン長を66%~98%削減する。
より短いインプットにもかかわらず、3つのベンチマークで従来のシステムと競合する性能を示し、大規模なデータベースでは顕著な性能を示した。
さらに、YOROは、省略のような挑戦的な値検索による質問の処理に長けている。
関連論文リスト
- Towards Evaluating Large Language Models for Graph Query Generation [49.49881799107061]
大言語モデル(LLM)は、生成人工知能(GenAI)の景観に革命をもたらしている
本稿では,オープンアクセス LLM を用いてグラフデータベースと対話する強力な言語としてクエリを生成することの課題について比較検討する。
クエリ生成精度を実証的に分析したところ、Claude Sonnet 3.5は特定のドメインでそれよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-13T09:11:56Z) - RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。
In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。
実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-07-11T08:19:58Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - Diverse Parallel Data Synthesis for Cross-Database Adaptation of
Text-to-SQL Parsers [21.272952382662215]
新しいデータベースへの適応は、新しいスキーマに自然言語クエリがないため、難しい問題である。
ターゲットスキーマにText-to-editを適用するためのフレームワークであるReFillを提案する。
論文 参考訳(メタデータ) (2022-10-29T14:30:53Z) - DBTagger: Multi-Task Learning for Keyword Mapping in NLIDBs Using
Bi-Directional Recurrent Neural Networks [0.2578242050187029]
NLQのPOSタグを利用した新しいディープラーニングに基づく教師付きアプローチを提案する。
8つの異なるデータセットに対するアプローチを評価し、最新の精度結果、平均92.4%$を報告します。
論文 参考訳(メタデータ) (2021-01-11T22:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。