論文の概要: Effective Distillation of Table-based Reasoning Ability from LLMs
- arxiv url: http://arxiv.org/abs/2309.13182v1
- Date: Fri, 22 Sep 2023 21:15:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 21:44:18.104981
- Title: Effective Distillation of Table-based Reasoning Ability from LLMs
- Title(参考訳): LLMによるテーブル型推論能力の有効蒸留
- Authors: Bohao Yang, Chen Tang, Kun Zhao, Chenghao Xiao, Chenghua Lin
- Abstract要約: 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
近年の研究では、LLMの特定の機能、例えば数値的推論は蒸留によってより小さなモデルに移行できることが明らかになっている。
本稿では, LLMをテーブルベースの推論タスク用に特別に設計された, より小型なモデルに蒸留することを目的とした, テーブルベースの推論蒸留を提案する。
- 参考スコア(独自算出の注目度): 25.056556084582322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance across
a wide range of natural language processing tasks. However, their remarkable
parameter size and their impressive high requirement of computing resources
pose challenges for their practical deployment. Recent research has revealed
that specific capabilities of LLMs, such as numerical reasoning, can be
transferred to smaller models through distillation. Some studies explore the
potential of leveraging LLMs to perform table-based reasoning. Nevertheless,
prior to our work, there has been no investigation into the prospect of
specialising table reasoning skills in smaller models specifically tailored for
table-to-text generation tasks. In this paper, we propose a novel table-based
reasoning distillation, with the aim of distilling distilling LLMs into
tailored, smaller models specifically designed for table-based reasoning task.
Experimental results have shown that a 0.22 billion parameter model
(Flan-T5-base) fine-tuned using distilled data, not only achieves a significant
improvement compared to traditionally fine-tuned baselines but also surpasses
specific LLMs like gpt-3.5-turbo on the scientific table-to-text generation
dataset (SciGen). The code and data are released in
https://github.com/Bernard-Yang/TableDistill.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
しかし、その驚くべきパラメータサイズとコンピュータリソースに対する高い要求は、実際のデプロイメントに課題を生じさせる。
近年の研究では、LLMの特定の機能、例えば数値的推論は蒸留によってより小さなモデルに移行できることが明らかになっている。
LLMをテーブルベースの推論に活用する可能性を探る研究もある。
しかしながら,本研究に先立ち,テーブル・ツー・テキスト生成タスクに適した小型モデルにおいて,テーブル推論スキルを育成する可能性については検討されていない。
本稿では, LLMをテーブルベースの推論タスク用に特別に設計された, より小型なモデルに蒸留することを目的とした, テーブルベースの推論蒸留を提案する。
実験の結果、0.22億のパラメータモデル(flan-t5-base)が蒸留データを用いて微調整されており、従来の微調整されたベースラインよりも大幅に改善されるだけでなく、scigen(scigen)のgpt-3.5-turboのような特定のllmを超えることが示されている。
コードとデータはhttps://github.com/bernard-yang/tabledistillでリリースされる。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning [35.03338699349037]
本稿では,機能エンジニアとして大規模言語モデルを用いる新しい文脈内学習フレームワークFeatLLMを提案する。
FeatLLMは高品質なルールを生成し、TabLLMやSTUNTなどよりも大幅に(平均で10%)優れている。
論文 参考訳(メタデータ) (2024-04-15T06:26:08Z) - A Survey of Table Reasoning with Large Language Models [55.2326738851157]
大規模言語モデル(LLM)の使用は、テーブル推論の主流となる。
LLM時代におけるテーブル推論性能の向上に使用される主流技術について分析する。
本研究は,既存手法の改良と実用化の拡充の両面から研究の方向性を示す。
論文 参考訳(メタデータ) (2024-02-13T07:17:52Z) - Are Large Language Models Table-based Fact-Checkers? [17.636623242137585]
表ベースのFact Verification (TFV) は、文と構造化テーブルの間の関係を抽出することを目的としている。
大規模モデルに基づく既存のTFV法は、ラベル付きデータ不足とゼロショット能力の弱さに悩まされている。
大規模言語モデル(LLM)は、強力なゼロショットとコンテキスト内学習能力を示している。
論文 参考訳(メタデータ) (2024-02-04T15:52:59Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。