論文の概要: Multi-Stage Balanced Distillation: Addressing Long-Tail Challenges in Sequence-Level Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2406.13114v2
- Date: Fri, 18 Oct 2024 23:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:15:07.339175
- Title: Multi-Stage Balanced Distillation: Addressing Long-Tail Challenges in Sequence-Level Knowledge Distillation
- Title(参考訳): 多段階バランス蒸留--シーケンスレベル知識蒸留における長期課題への対応
- Authors: Yuhang Zhou, Jing Zhu, Paiheng Xu, Xiaoyu Liu, Xiyao Wang, Danai Koutra, Wei Ai, Furong Huang,
- Abstract要約: 知識蒸留(KD)は有望なソリューションであり、より大きな教師のLLMからよりコンパクトな学生モデルへの能力の移転を可能にする。
固定予算内でのトレーニングデータを反復的にバランスをとるマルチステージバランス蒸留(BalDistill)フレームワークを導入する。
BalDistillは、様々な長い尾のデータセットにまたがって最先端のパフォーマンスを実現し、蒸留モデルの効率性と有効性を向上させる。
- 参考スコア(独自算出の注目度): 33.21314371624318
- License:
- Abstract: Large language models (LLMs) have significantly advanced various natural language processing tasks, but deploying them remains computationally expensive. Knowledge distillation (KD) is a promising solution, enabling the transfer of capabilities from larger teacher LLMs to more compact student models. Particularly, sequence-level KD, which distills rationale-based reasoning processes instead of merely final outcomes, shows great potential in enhancing students' reasoning capabilities. However, current methods struggle with sequence level KD under long-tailed data distributions, adversely affecting generalization on sparsely represented domains. We introduce the Multi-Stage Balanced Distillation (BalDistill) framework, which iteratively balances training data within a fixed computational budget. By dynamically selecting representative head domain examples and synthesizing tail domain examples, BalDistill achieves state-of-the-art performance across diverse long-tailed datasets, enhancing both the efficiency and efficacy of the distilled models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクを著しく進歩させてきたが、それらをデプロイするには計算コストがかかる。
知識蒸留(KD)は有望なソリューションであり、より大きな教師のLLMからよりコンパクトな学生モデルへの能力の移転を可能にする。
特に、論理に基づく推論過程を蒸留するシーケンスレベルのKDは、最終的な結果ではなく、学生の推論能力を高める大きな可能性を示している。
しかし、現在の方法では、長い尾を持つデータ分布の下でのシーケンスレベルKDに苦慮し、疎表現領域の一般化に悪影響を及ぼす。
固定予算内でのトレーニングデータを反復的にバランスをとるマルチステージバランス蒸留(BalDistill)フレームワークを導入する。
BalDistillは、代表的ヘッドドメインの例を動的に選択し、テールドメインの例を合成することによって、様々な長い尾のデータセットをまたいだ最先端のパフォーマンスを実現し、蒸留モデルの効率性と有効性を向上させる。
関連論文リスト
- Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment [10.104085497265004]
本稿では,教師モデルと学生モデルとのピーク予測の整合性を促進するために,ランキング損失に基づく知識蒸留(RLKD)を提案する。
提案手法は,教師モデルのマルチモーダル分布をよりよく学習し,様々な下流タスクにおいて顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2024-09-19T08:06:42Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Densely Distilling Cumulative Knowledge for Continual Learning [14.343655566551213]
多様なタスクのシーケンシャルなトレーニングを含む継続的な学習は、しばしば破滅的な忘れに直面します。
本稿では,従来の課題の累積知識を抽出するために,Dense Knowledge Distillation (DKD)を提案する。
我々のDKDは、様々なベンチマークやシナリオで最新の最先端のベースラインを上回っています。
論文 参考訳(メタデータ) (2024-05-16T05:37:06Z) - Improving In-context Learning via Bidirectional Alignment [41.214003703218914]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、多くのタスクにおいて印象的な数ショットの一般化を示している。
我々は,学生モデルのICL能力を向上させるために,ICL事例に対するモデルの嗜好を十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。
具体的には、新しいランキング損失を取り入れることで、学生と教師のモデル間の入力好みのアライメントを導入する。
論文 参考訳(メタデータ) (2023-12-28T15:02:03Z) - Dynamic Sub-graph Distillation for Robust Semi-supervised Continual
Learning [52.046037471678005]
半教師付き連続学習(SSCL)に焦点をあて、そのモデルが未知のカテゴリを持つ部分ラベル付きデータから徐々に学習する。
半教師付き連続学習のための動的サブグラフ蒸留法(DSGD)を提案する。
論文 参考訳(メタデータ) (2023-12-27T04:40:12Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Optimal Decision Diagrams for Classification [68.72078059880018]
数学的プログラミングの観点から最適決定図の学習について検討する。
本稿では,新しい混合整数線形プログラミングモデルを提案する。
このモデルは、公正性、同義性、安定性の概念に対してどのように容易に拡張できるかを示す。
論文 参考訳(メタデータ) (2022-05-28T18:31:23Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。