論文の概要: Mixed Distillation Helps Smaller Language Model Better Reasoning
- arxiv url: http://arxiv.org/abs/2312.10730v1
- Date: Sun, 17 Dec 2023 14:28:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-19 14:44:35.284003
- Title: Mixed Distillation Helps Smaller Language Model Better Reasoning
- Title(参考訳): 混合蒸留はより小さな言語モデルの推論に役立つ
- Authors: Li Chenglin, Chen Qianglong, Wang Caiyu, Zhang Yin
- Abstract要約: 本稿では,Program-of-Thought(PoT)とChain-of-Thought(CoT)の長所を活かしたtextbfMixed Distillationフレームワークを紹介する。
我々のフレームワークは、より小さなモデルの能力を高めるための有望なアプローチを提供し、大きな言語モデルとのギャップを埋める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the remarkable performance of large language models (LLMs) in recent
NLP tasks, their deployment poses substantial challenges due to high
computational and memory demands. Recent research has concentrated on improving
open-source smaller models through knowledge distillation from LLMs to reduce
computational resource costs with promising outcomes. Nevertheless, they
frequently fall short of attaining LLM-level performance, particularly in tasks
demanding advanced reasoning. In this work, we introduce the \textbf{Mixed
Distillation} framework, which capitalizes on the strengths of
Program-of-Thought (PoT) and Chain-of-Thought (CoT) capabilities within LLMs
and distills these capabilities to smaller models. Regarding these two
capabilities, the PoT is dedicated to enhancing the performance of reasoning
results generated by smaller models, while CoT simultaneously optimizes the
results. Our Mixed Distillation framework offers a promising approach to
enhance the capabilities of smaller models, bridging the gap with LLMs, and
demonstrating better performance across various tasks. Specifically, on the
SVAMP dataset, employing a 7 billion parameter Llama2 and CodeLlama in a mixed
distillation framework not only boosts distillation capabilities beyond
single-path distillation methods but also outperforms the LLM (GPT-3.5-turbo)
in terms of reasoning accuracy. Through sampling in multiple-path reasoning,
the models achieve impressive accuracy performances of 85% and 85.5%,
respectively, signifying advancements over previous distillation methods.
- Abstract(参考訳): 最近のNLPタスクにおける大規模言語モデル(LLM)の顕著なパフォーマンスにもかかわらず、そのデプロイメントは高い計算量とメモリ要求のために重大な課題を生じさせる。
近年の研究では、llmからの知識蒸留によるオープンソースの小型モデルの改善に集中し、計算資源コストを削減し、有望な成果を上げている。
しかし、特に高度な推論を必要とするタスクにおいて、LLMレベルのパフォーマンスを達成するには至らなかった。
本稿では,LLM内のProgram-of-Thought(PoT)とChain-of-Thought(CoT)の強みを活かし,これらの能力をより小さなモデルに蒸留する。
これら2つの機能に関して、PoTはより小さなモデルによって生成された推論結果のパフォーマンス向上に特化しており、CoTは同時に結果の最適化を行っている。
私たちのMixed Distillationフレームワークは、小さなモデルの能力を向上し、LCMとのギャップを埋め、様々なタスクでより良いパフォーマンスを示す、有望なアプローチを提供します。
具体的には、SVAMPデータセット上では、混合蒸留フレームワークにおいて70億のパラメータLlama2とCodeLlamaを用いて、単一パス蒸留法を超えて蒸留能力を向上するだけでなく、推論精度においてLLM(GPT-3.5-turbo)よりも優れている。
マルチパス推論のサンプリングにより, 従来の蒸留法よりも精度が向上し, 85%, 85.5%の精度が得られた。
関連論文リスト
- Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math [135.1260782461186]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の形式推論能力を著しく向上させる
しかし、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。
本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質長CoTデータによる微調整,(3)厳格な選好データセットを活用したロールアウトDPO,(4)検証リワードを用いた強化学習(RL)の4段階からなるSLMの体系的トレーニングレシピを提案する。
論文 参考訳(メタデータ) (2025-04-30T00:04:35Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning [76.82159851648711]
負対に対する埋め込みモデルの表現学習を動的に改善するフレームワークを提案する。
LLaVEは、最先端(SOTA)のパフォーマンスを実現する強力なベースラインを確立する。
LLaVEはゼロショット方式でテキストビデオ検索タスクを一般化し、高い性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T10:21:57Z) - Efficient Multitask Learning in Small Language Models Through Upside-Down Reinforcement Learning [8.995427413172148]
小型言語モデル (SLM) はマルチタスクのプロンプト生成タスクにおいて競合性能を達成することができる。
Llama-3, Qwen2, Mistral など最先端モデルの 5% 以内の妥当性スコアを達成できる SLM のトレーニングを行う。
論文 参考訳(メタデータ) (2025-02-14T01:39:45Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Mentor-KD: Making Small Language Models Better Multi-step Reasoners [15.159415340059388]
我々は,LLMのマルチステップ推論能力をより小さいLMに効果的に蒸留するメンター-KDを提案する。
我々は、メンタ、中間サイズのタスク固有の微調整モデルを利用して、追加のCoTアノテーションを強化します。
我々は広範囲な実験を行い、メンターKDの有効性を様々なモデルや複雑な推論タスクで確認する。
論文 参考訳(メタデータ) (2024-10-11T17:53:27Z) - LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。
スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。
また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文 参考訳(メタデータ) (2024-08-28T15:52:23Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Teaching Language Models to Self-Improve through Interactive Demonstrations [83.9421355808174]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。