論文の概要: Mixed Distillation Helps Smaller Language Model Better Reasoning
- arxiv url: http://arxiv.org/abs/2312.10730v2
- Date: Sun, 25 Feb 2024 07:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:48:16.008542
- Title: Mixed Distillation Helps Smaller Language Model Better Reasoning
- Title(参考訳): 混合蒸留はより小さな言語モデルの推論に役立つ
- Authors: Chenglin Li, Qianglong Chen, Liangyue Li, Caiyu Wang, Yicheng Li,
Zulong Chen, Yin Zhang
- Abstract要約: 本稿では,大規模言語モデル (LLM) におけるプログラム・オブ・シント (PoT) とチェーン・オブ・シント (CoT) の強みを生かした混合蒸留 (MD) フレームワークを紹介する。
実験の結果, MDは, 様々なタスクにおいて, より小さなモデルのシングルパスとマルチパス推論能力を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 27.934081882868902
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While large language models (LLMs) have demonstrated exceptional performance
in recent natural language processing (NLP) tasks, their deployment poses
substantial challenges due to high computational and memory demands in
real-world applications. Recent studies have focused on enhancing smaller
models through knowledge distillation from LLMs, yielding promising results.
However, these models often struggle to match the performance of LLMs,
especially in tasks that require reasoning. In this work, we introduce Mixed
Distillation (MD) framework, which capitalizes on the strengths of Program of
Thought (PoT) and Chain of Thought (CoT) capabilities within LLMs, combining
multiple prompting techniques and distilling these capabilities into smaller
models. Our experimental results show that MD significantly enhances the
single-path and multi-path reasoning ability of smaller models in various
tasks. In terms of accuracy and generality of reasoning tasks, the model
generated by it exceeds the comprehensive performance of two individually
distilled models. Notably, LLaMA2-7B and CodeLlama-7B using MD achieved
remarkable improvements of (84.5%) and (85.5%), respectively, outperforming
GPT-3.5-Turbo by (2.5%) and (3.5%), on the SVAMP benchmark.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近の自然言語処理(NLP)タスクにおいて例外的な性能を示してきたが、実際のアプリケーションでは高い計算量とメモリ要求のため、その展開は重大な課題となっている。
近年の研究では、LLMの知識蒸留による小型モデルの改良に焦点が当てられ、有望な結果が得られている。
しかしながら、これらのモデルは、特に推論を必要とするタスクにおいて、LLMのパフォーマンスに匹敵する。
本研究では,LLM内のPoT(Program of Thought)とCoT(Chain of Thought)の強みを活かしたMD(Mixed Distillation)フレームワークを導入する。
実験の結果,MDは,より小さなモデルの単一パスと複数パス推論能力を大幅に向上させることがわかった。
推論タスクの精度と一般性の観点からは、2つの個別蒸留モデルの包括的性能を超えている。
特に、LLaMA2-7B と CodeLlama-7B は、それぞれ SVAMP ベンチマークで GPT-3.5-Turbo を(2.5%)上回った (84.5%) と (85.5%) 。
関連論文リスト
- How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on
Deceptive Prompts [59.07350713048311]
提案するMAD-Benchは,既存オブジェクト,オブジェクト数,空間関係,視覚的混乱など,850の試験サンプルを6つのカテゴリに分けたベンチマークである。
GPT-4V, Gemini-Pro から LLaVA-1.5 や CogVLM などのオープンソースモデルに至るまで,一般的な MLLM を包括的に分析する。
GPT-4VはMAD-Benchで75.02%の精度を達成するが、実験中の他のモデルの精度は5%から35%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Teaching Language Models to Self-Improve through Interactive
Demonstrations [90.05698053752806]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured
Pruning [57.12877119005303]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文 参考訳(メタデータ) (2023-09-18T17:30:46Z) - PaD: Program-aided Distillation Specializes Large Models in Reasoning [20.277018044590953]
本稿では,大規模言語モデル (LLM) を蒸留して推論タスクの専門的な小モデルを得るプログラム支援蒸留(PaD)を提案する。
PaDでは、プログラム支援推論による特殊モデルを強化し、自動エラーチェックによる欠陥推論ステップの克服を支援する。
論文 参考訳(メタデータ) (2023-05-23T10:11:56Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。