論文の概要: DTS-SQL: Decomposed Text-to-SQL with Small Large Language Models
- arxiv url: http://arxiv.org/abs/2402.01117v1
- Date: Fri, 2 Feb 2024 03:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 17:04:19.020680
- Title: DTS-SQL: Decomposed Text-to-SQL with Small Large Language Models
- Title(参考訳): DTS-SQL: 小規模言語モデルによるテキストからSQLへの分解
- Authors: Mohammadreza Pourreza and Davood Rafiei
- Abstract要約: 本稿では,タスクを2つの単純なタスクに分解する,新しい2段階の微調整手法を提案する。
このアプローチは実行精度を3~7%向上させる。
- 参考スコア(独自算出の注目度): 7.388002745070808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leading models for the text-to-SQL task heavily rely on proprietary Large
Language Models (LLMs), posing concerns over data privacy. Closing the
performance gap between small open-source models and large proprietary models
is crucial to mitigate this reliance. To this end, we introduce a novel
two-stage fine-tuning approach that decomposes the task into two simpler tasks.
Through comprehensive evaluation on two large cross-domain datasets and two
small LLMs, we show that this approach improves execution accuracy by 3 to 7
percent, effectively aligning the performance of open-source models with their
proprietary counterparts.
- Abstract(参考訳): テキストからSQLへのタスクのリードモデルは、データプライバシに関する懸念を提起する、プロプライエタリなLarge Language Models(LLM)に大きく依存している。
小さなオープンソースモデルと大規模なプロプライエタリモデルのパフォーマンスギャップを埋めることは、この依存を緩和するために不可欠である。
そこで本研究では,タスクを2つの単純なタスクに分解する2段階微調整手法を提案する。
2つの大きなクロスドメインデータセットと2つの小さなLCMの包括的な評価により、このアプローチは実行精度を3~7%向上し、オープンソースモデルとプロプライエタリなモデルの性能を効果的に整合させることを示した。
関連論文リスト
- Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。
我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。
我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Few-Shot Joint Multimodal Entity-Relation Extraction via Knowledge-Enhanced Cross-modal Prompt Model [16.03304915788997]
JMERE(Joint Multimodal Entity-Relation extract)は、ソーシャルメディア投稿において、エンティティとそれらの関係をテキストイメージペアから抽出することを目的とした課題である。
JMEREの既存の方法は大量のラベル付きデータを必要とする。
textbfKnowledge-textbfEnhanced textbfCross-modal textbfPrompt textbfModelを紹介する。
論文 参考訳(メタデータ) (2024-10-18T07:14:54Z) - Synthesizing Text-to-SQL Data from Weak and Strong LLMs [68.69270834311259]
オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキスト・トゥ・タスクにおいて依然として課題である。
より大規模で強力なモデルによって生成されたデータと、より小さく、不整合なモデルによって生成されたエラー情報データを組み合わせた合成データアプローチを導入する。
論文 参考訳(メタデータ) (2024-08-06T15:40:32Z) - Impact of Model Size on Fine-tuned LLM Performance in Data-to-Text Generation: A State-of-the-Art Investigation [1.8876415010297893]
Data-to-text (D2T) の生成は、テーブルやグラフなどの半構造化データから可読なテキストを生成することを目的としている。
D2Tタスク用微調整LDMの性能に及ぼすモデルサイズの影響を示す研究は行われていない。
我々は、広く使われている5つのD2Tデータセットにまたがって、モデルサイズをスケールする利点と限界の両方を解明することを目指している。
論文 参考訳(メタデータ) (2024-07-19T07:54:30Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Decomposition for Enhancing Attention: Improving LLM-based Text-to-SQL through Workflow Paradigm [19.06214756792692]
大規模言語モデル(LLM)の文脈内学習は自然言語処理の分野で大きな成功を収めている。
ケーススタディでは、一段階のチェーン・オブ・シントアプローチが、テキスト・トゥ・コレクションのような複雑なタスクにおける注意拡散や不適切なパフォーマンスといった課題に直面していることが明らかになった。
分解によりLLMの注目度と問題解決範囲を高めることを目的としたワークフローパラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-16T13:24:05Z) - Open, Closed, or Small Language Models for Text Classification? [10.186568241388331]
我々は,3つの異なるNLPタスクにまたがる8つのデータセットを用いて,モデルの3つのクラスを評価する。
オープンソースモデルは、微調整によってクローズドソースモデルに匹敵する可能性がある。
本研究は,タスク要求に基づくモデル選択の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-08-19T18:58:32Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。