論文の概要: DTS-SQL: Decomposed Text-to-SQL with Small Large Language Models
- arxiv url: http://arxiv.org/abs/2402.01117v1
- Date: Fri, 2 Feb 2024 03:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 17:04:19.020680
- Title: DTS-SQL: Decomposed Text-to-SQL with Small Large Language Models
- Title(参考訳): DTS-SQL: 小規模言語モデルによるテキストからSQLへの分解
- Authors: Mohammadreza Pourreza and Davood Rafiei
- Abstract要約: 本稿では,タスクを2つの単純なタスクに分解する,新しい2段階の微調整手法を提案する。
このアプローチは実行精度を3~7%向上させる。
- 参考スコア(独自算出の注目度): 7.388002745070808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leading models for the text-to-SQL task heavily rely on proprietary Large
Language Models (LLMs), posing concerns over data privacy. Closing the
performance gap between small open-source models and large proprietary models
is crucial to mitigate this reliance. To this end, we introduce a novel
two-stage fine-tuning approach that decomposes the task into two simpler tasks.
Through comprehensive evaluation on two large cross-domain datasets and two
small LLMs, we show that this approach improves execution accuracy by 3 to 7
percent, effectively aligning the performance of open-source models with their
proprietary counterparts.
- Abstract(参考訳): テキストからSQLへのタスクのリードモデルは、データプライバシに関する懸念を提起する、プロプライエタリなLarge Language Models(LLM)に大きく依存している。
小さなオープンソースモデルと大規模なプロプライエタリモデルのパフォーマンスギャップを埋めることは、この依存を緩和するために不可欠である。
そこで本研究では,タスクを2つの単純なタスクに分解する2段階微調整手法を提案する。
2つの大きなクロスドメインデータセットと2つの小さなLCMの包括的な評価により、このアプローチは実行精度を3~7%向上し、オープンソースモデルとプロプライエタリなモデルの性能を効果的に整合させることを示した。
関連論文リスト
- Relay Decoding: Concatenating Large Language Models for Machine Translation [21.367605327742027]
我々はRD(Relay Decoding)と呼ばれる革新的なアプローチを提案し、ソースとターゲット言語を個別にサポートする2つの異なる大規模モデルを結合する。
これら2つのモデル間の接続を容易にするための単純なマッピング層を導入し、訓練に限られた並列データを活用することにより、機械翻訳タスクにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-05-05T13:42:25Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Decomposition for Enhancing Attention: Improving LLM-based Text-to-SQL
through Workflow Paradigm [19.696405897131587]
大規模言語モデル(LLM)の文脈内学習は自然言語処理の分野で大きな成功を収めている。
単一ステップのチェーン・オブ・シントアプローチは、テキストから現実的といった複雑なタスクにおける注意拡散や不適切なパフォーマンスといった課題に直面している。
分解によりLLMの注目度と問題解決範囲を高めることを目的としたワークフローパラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-16T13:24:05Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Data Transformation to Construct a Dataset for Generating
Entity-Relationship Model from Natural Language [39.53954130028595]
ERモデルの手作業コストを削減するため,NL2ERMの課題に対処する手法が提案されている。
これらのアプローチは通常、厳格なルールに依存するルールベースのアプローチである。
ルールベースのアプローチよりも一般化が優れているにもかかわらず、大規模なデータセットが欠如しているため、ディープベースモデルはNL2ERMに欠けている。
論文 参考訳(メタデータ) (2023-12-21T09:45:13Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - Prompt2Model: Generating Deployable Models from Natural Language
Instructions [74.19816829003729]
大規模言語モデル(LLM)により、システムビルダーはプロンプトによって有能なNLPシステムを作成することができる。
言い換えれば、LSMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMに提供されるプロンプトのように自然言語によるタスク記述を行う汎用手法であるPrompt2Modelを提案する。
論文 参考訳(メタデータ) (2023-08-23T17:28:21Z) - Open, Closed, or Small Language Models for Text Classification? [10.186568241388331]
我々は,3つの異なるNLPタスクにまたがる8つのデータセットを用いて,モデルの3つのクラスを評価する。
オープンソースモデルは、微調整によってクローズドソースモデルに匹敵する可能性がある。
本研究は,タスク要求に基づくモデル選択の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-08-19T18:58:32Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。