論文の概要: Learning from Imperfect Data: Towards Efficient Knowledge Distillation of Autoregressive Language Models for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2410.11371v1
- Date: Tue, 15 Oct 2024 07:51:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:01:47.368116
- Title: Learning from Imperfect Data: Towards Efficient Knowledge Distillation of Autoregressive Language Models for Text-to-SQL
- Title(参考訳): 不完全なデータから学ぶ:テキストからSQLへの自己回帰型言語モデルの効率的な知識蒸留に向けて
- Authors: Qihuang Zhong, Kunfeng Chen, Liang Ding, Juhua Liu, Bo Du, Dacheng Tao,
- Abstract要約: 知識蒸留(KD)は、より大規模な教師モデルをより小さな学生モデルに蒸留することを目的とした一般的な手法である。
我々は,不完全なデータ,すなわちKIDを用いてKDを改善することを提案する。
KIDは、すべてのモデルタイプとサイズで一貫した、重要なパフォーマンス向上を達成するだけでなく、トレーニング効率を効果的に向上する。
- 参考スコア(独自算出の注目度): 83.99974309930072
- License:
- Abstract: Large Language Models (LLMs) have shown promising performance in text-to-SQL, which involves translating natural language questions into SQL queries. However, current text-to-SQL LLMs are computationally expensive and challenging to deploy in real-world applications, highlighting the importance of compressing them. To achieve this goal, knowledge distillation (KD) is a common approach, which aims to distill the larger teacher model into a smaller student model. While numerous KD methods for autoregressive LLMs have emerged recently, it is still under-explored whether they work well in complex text-to-SQL scenarios. To this end, we conduct a series of analyses and reveal that these KD methods generally fall short in balancing performance and efficiency. In response to this problem, we propose to improve the KD with Imperfect Data, namely KID, which effectively boosts the performance without introducing much training budget. The core of KID is to efficiently mitigate the training-inference mismatch by simulating the cascading effect of inference in the imperfect training data. Extensive experiments on 5 text-to-SQL benchmarks show that, KID can not only achieve consistent and significant performance gains (up to +5.83% average score) across all model types and sizes, but also effectively improve the training efficiency.
- Abstract(参考訳): 大きな言語モデル(LLM)は、自然言語の質問をSQLクエリに変換することを含む、テキストからSQLへの有望なパフォーマンスを示している。
しかし、現在のテキストからSQLへのLLMは計算コストが高く、実際のアプリケーションにデプロイすることは困難であり、圧縮の重要性を強調している。
この目的を達成するために、知識蒸留(KD)は、より大きな教師モデルをより小さな学生モデルに蒸留することを目的とした一般的なアプローチである。
自動回帰LDMのための多くのKDメソッドが最近登場したが、複雑なテキストからSQLのシナリオでうまく動作するかどうかはまだ解明されていない。
この目的のために、我々は一連の分析を行い、これらのKD法は一般に性能と効率のバランスが取れないことを明らかにする。
この問題に対処するため、我々は不完全なデータ、すなわちKIDを用いてKDを改善することを提案する。
KIDのコアは、不完全なトレーニングデータにおける推論のカスケーディング効果をシミュレートすることにより、トレーニング-推論ミスマッチを効率的に軽減することである。
5つのテキスト-SQLベンチマークの大規模な実験では、KIDはすべてのモデルタイプとサイズで一貫した(平均スコア+5.83%まで)パフォーマンス向上を達成するだけでなく、トレーニング効率を効果的に向上させることができる。
関連論文リスト
- Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with
Self-Correction [7.388002745070808]
本研究では、生成問題をサブプロブレムに分解し、それらのサブプロブレムの解を大規模言語モデルに供給する方法について検討する。
文脈内学習による我々のアプローチは、多くの微調整されたモデルを少なくとも5%上回っている。
論文 参考訳(メタデータ) (2023-04-21T15:02:18Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z) - Performance-Efficiency Trade-Offs in Adapting Language Models to Text
Classification Tasks [4.101451083646731]
我々は,LMをテキスト分類に適応させる訓練方法の違いについて検討した。
実験結果から, 大型鉄道車両において, 微調整や作業の促進が有効であったとしても, 計算コストやデータコストを削減できる, より効率的な代替手段があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T15:10:09Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。