Fugu-MT 論文翻訳(概要): Effective Distillation of Table-based Reasoning Ability from LLMs

論文の概要: Effective Distillation of Table-based Reasoning Ability from LLMs

arxiv url: http://arxiv.org/abs/2309.13182v1
Date: Fri, 22 Sep 2023 21:15:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-26 21:44:18.104981
Title: Effective Distillation of Table-based Reasoning Ability from LLMs
Title（参考訳）: LLMによるテーブル型推論能力の有効蒸留
Authors: Bohao Yang, Chen Tang, Kun Zhao, Chenghao Xiao, Chenghua Lin
Abstract要約: 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。近年の研究では、LLMの特定の機能、例えば数値的推論は蒸留によってより小さなモデルに移行できることが明らかになっている。本稿では, LLMをテーブルベースの推論タスク用に特別に設計された, より小型なモデルに蒸留することを目的とした, テーブルベースの推論蒸留を提案する。
参考スコア（独自算出の注目度）: 25.056556084582322
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have demonstrated remarkable performance across a wide range of natural language processing tasks. However, their remarkable parameter size and their impressive high requirement of computing resources pose challenges for their practical deployment. Recent research has revealed that specific capabilities of LLMs, such as numerical reasoning, can be transferred to smaller models through distillation. Some studies explore the potential of leveraging LLMs to perform table-based reasoning. Nevertheless, prior to our work, there has been no investigation into the prospect of specialising table reasoning skills in smaller models specifically tailored for table-to-text generation tasks. In this paper, we propose a novel table-based reasoning distillation, with the aim of distilling distilling LLMs into tailored, smaller models specifically designed for table-based reasoning task. Experimental results have shown that a 0.22 billion parameter model (Flan-T5-base) fine-tuned using distilled data, not only achieves a significant improvement compared to traditionally fine-tuned baselines but also surpasses specific LLMs like gpt-3.5-turbo on the scientific table-to-text generation dataset (SciGen). The code and data are released in https://github.com/Bernard-Yang/TableDistill.
Abstract（参考訳）: 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。しかし、その驚くべきパラメータサイズとコンピュータリソースに対する高い要求は、実際のデプロイメントに課題を生じさせる。近年の研究では、LLMの特定の機能、例えば数値的推論は蒸留によってより小さなモデルに移行できることが明らかになっている。 LLMをテーブルベースの推論に活用する可能性を探る研究もある。しかしながら,本研究に先立ち,テーブル・ツー・テキスト生成タスクに適した小型モデルにおいて,テーブル推論スキルを育成する可能性については検討されていない。本稿では, LLMをテーブルベースの推論タスク用に特別に設計された, より小型なモデルに蒸留することを目的とした, テーブルベースの推論蒸留を提案する。実験の結果、0.22億のパラメータモデル(flan-t5-base)が蒸留データを用いて微調整されており、従来の微調整されたベースラインよりも大幅に改善されるだけでなく、scigen(scigen)のgpt-3.5-turboのような特定のllmを超えることが示されている。コードとデータはhttps://github.com/bernard-yang/tabledistillでリリースされる。

関連論文リスト

Distilling LLM Agent into Small Models with Retrieval and Code Tools [57.61747522001781]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文参考訳（メタデータ） (2025-05-23T08:20:15Z)
LENSLLM: Unveiling Fine-Tuning Dynamics for LLM Selection [11.353302879735862]
オープンソースのLarge Language Models (LLM) と様々な下流タスクは効率的なモデル選択を必要とする。 LLMの一般化能力を評価するための適切なレンズを提供する新しい理論フレームワークを提案する。特に, LLMの微調整ダイナミクスを明らかにするPAC-Bayesian Generalization Boundを導出する。次に,ニューラルタンジェントカーネル(NTK)をベースとしたRectified Scaling ModelであるLENSLLMを紹介し,正確な性能予測を実現する。
論文参考訳（メタデータ） (2025-05-01T15:07:32Z)
NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables [32.9031799179503]
textscNeedleInATable (NIAT)は、各テーブルセルを針として扱い、セルの位置やルックアップ質問に基づいてターゲットセルを抽出するモデルを必要とする。私たちのデータ、コード、モデルは、将来の研究を促進するためにリリースされます。
論文参考訳（メタデータ） (2025-04-09T03:46:56Z)
Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文参考訳（メタデータ） (2025-04-02T20:33:27Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning [35.03338699349037]
本稿では,機能エンジニアとして大規模言語モデルを用いる新しい文脈内学習フレームワークFeatLLMを提案する。 FeatLLMは高品質なルールを生成し、TabLLMやSTUNTなどよりも大幅に(平均で10%)優れている。
論文参考訳（メタデータ） (2024-04-15T06:26:08Z)
A Survey of Table Reasoning with Large Language Models [55.2326738851157]
大規模言語モデル(LLM)の使用は、テーブル推論の主流となる。 LLM時代におけるテーブル推論性能の向上に使用される主流技術について分析する。本研究は,既存手法の改良と実用化の拡充の両面から研究の方向性を示す。
論文参考訳（メタデータ） (2024-02-13T07:17:52Z)
Are Large Language Models Table-based Fact-Checkers? [17.636623242137585]
表ベースのFact Verification (TFV) は、文と構造化テーブルの間の関係を抽出することを目的としている。大規模モデルに基づく既存のTFV法は、ラベル付きデータ不足とゼロショット能力の弱さに悩まされている。大規模言語モデル(LLM)は、強力なゼロショットとコンテキスト内学習能力を示している。
論文参考訳（メタデータ） (2024-02-04T15:52:59Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)
Improving Small Language Models on PubMedQA via Generative Data Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文参考訳（メタデータ） (2023-05-12T23:49:23Z)
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。 4つのNLPベンチマークで3つの結果を得た。
論文参考訳（メタデータ） (2023-05-03T17:50:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。