論文の概要: Mixed Distillation Helps Smaller Language Model Better Reasoning
- arxiv url: http://arxiv.org/abs/2312.10730v1
- Date: Sun, 17 Dec 2023 14:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:44:35.284003
- Title: Mixed Distillation Helps Smaller Language Model Better Reasoning
- Title(参考訳): 混合蒸留はより小さな言語モデルの推論に役立つ
- Authors: Li Chenglin, Chen Qianglong, Wang Caiyu, Zhang Yin
- Abstract要約: 本稿では,Program-of-Thought(PoT)とChain-of-Thought(CoT)の長所を活かしたtextbfMixed Distillationフレームワークを紹介する。
我々のフレームワークは、より小さなモデルの能力を高めるための有望なアプローチを提供し、大きな言語モデルとのギャップを埋める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the remarkable performance of large language models (LLMs) in recent
NLP tasks, their deployment poses substantial challenges due to high
computational and memory demands. Recent research has concentrated on improving
open-source smaller models through knowledge distillation from LLMs to reduce
computational resource costs with promising outcomes. Nevertheless, they
frequently fall short of attaining LLM-level performance, particularly in tasks
demanding advanced reasoning. In this work, we introduce the \textbf{Mixed
Distillation} framework, which capitalizes on the strengths of
Program-of-Thought (PoT) and Chain-of-Thought (CoT) capabilities within LLMs
and distills these capabilities to smaller models. Regarding these two
capabilities, the PoT is dedicated to enhancing the performance of reasoning
results generated by smaller models, while CoT simultaneously optimizes the
results. Our Mixed Distillation framework offers a promising approach to
enhance the capabilities of smaller models, bridging the gap with LLMs, and
demonstrating better performance across various tasks. Specifically, on the
SVAMP dataset, employing a 7 billion parameter Llama2 and CodeLlama in a mixed
distillation framework not only boosts distillation capabilities beyond
single-path distillation methods but also outperforms the LLM (GPT-3.5-turbo)
in terms of reasoning accuracy. Through sampling in multiple-path reasoning,
the models achieve impressive accuracy performances of 85% and 85.5%,
respectively, signifying advancements over previous distillation methods.
- Abstract(参考訳): 最近のNLPタスクにおける大規模言語モデル(LLM)の顕著なパフォーマンスにもかかわらず、そのデプロイメントは高い計算量とメモリ要求のために重大な課題を生じさせる。
近年の研究では、llmからの知識蒸留によるオープンソースの小型モデルの改善に集中し、計算資源コストを削減し、有望な成果を上げている。
しかし、特に高度な推論を必要とするタスクにおいて、LLMレベルのパフォーマンスを達成するには至らなかった。
本稿では,LLM内のProgram-of-Thought(PoT)とChain-of-Thought(CoT)の強みを活かし,これらの能力をより小さなモデルに蒸留する。
これら2つの機能に関して、PoTはより小さなモデルによって生成された推論結果のパフォーマンス向上に特化しており、CoTは同時に結果の最適化を行っている。
私たちのMixed Distillationフレームワークは、小さなモデルの能力を向上し、LCMとのギャップを埋め、様々なタスクでより良いパフォーマンスを示す、有望なアプローチを提供します。
具体的には、SVAMPデータセット上では、混合蒸留フレームワークにおいて70億のパラメータLlama2とCodeLlamaを用いて、単一パス蒸留法を超えて蒸留能力を向上するだけでなく、推論精度においてLLM(GPT-3.5-turbo)よりも優れている。
マルチパス推論のサンプリングにより, 従来の蒸留法よりも精度が向上し, 85%, 85.5%の精度が得られた。
関連論文リスト
- Investigating Automatic Scoring and Feedback using Large Language Models [46.1232919707345]
本稿では,PEFTに基づく量子化モデルの有効性について検討する。
その結果, 微調整LDMによる評価は精度が高く, 平均的に3%未満の誤差が得られた。
論文 参考訳(メタデータ) (2024-05-01T16:13:54Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on
Deceptive Prompts [59.07350713048311]
提案するMAD-Benchは,既存オブジェクト,オブジェクト数,空間関係,視覚的混乱など,850の試験サンプルを6つのカテゴリに分けたベンチマークである。
GPT-4V, Gemini-Pro から LLaVA-1.5 や CogVLM などのオープンソースモデルに至るまで,一般的な MLLM を包括的に分析する。
GPT-4VはMAD-Benchで75.02%の精度を達成するが、実験中の他のモデルの精度は5%から35%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Teaching Language Models to Self-Improve through Interactive Demonstrations [83.9421355808174]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文 参考訳(メタデータ) (2023-09-18T17:30:46Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。