論文の概要: BiLD: Bi-directional Logits Difference Loss for Large Language Model Distillation
- arxiv url: http://arxiv.org/abs/2406.13555v2
- Date: Wed, 11 Sep 2024 12:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 20:48:06.467078
- Title: BiLD: Bi-directional Logits Difference Loss for Large Language Model Distillation
- Title(参考訳): BiLD: 大規模言語モデルの蒸留における双方向ログの差分
- Authors: Minchong Li, Feng Zhou, Xiaohui Song,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにまたがる例外的な機能を示している。
知識蒸留(KD)は、大きな教師モデルからより小さな学生モデルに知識を移すことによって解を提供する。
本稿では,LLMのロージットレベルでのタスク特異的蒸留について検討する。
- 参考スコア(独自算出の注目度): 4.577173950430005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large language models (LLMs) have shown exceptional capabilities across various natural language processing (NLP) tasks. However, such impressive performance often comes with the trade-off of an increased parameter size, posing significant challenges for widespread deployment. Knowledge distillation (KD) provides a solution by transferring knowledge from a large teacher model to a smaller student model. In this paper, we explore the task-specific distillation of LLMs at the logit level. Our investigation reveals that the logits of fine-tuned LLMs exhibit a more extreme long-tail distribution than those from vision models, with hidden "noise" in the long tail affecting distillation performance. Furthermore, existing logits distillation methods often struggle to effectively utilize the internal ranking information from the logits. To address these, we propose the Bi-directional Logits Difference (BiLD) loss. The BiLD loss filters out the long-tail noise by utilizing only top-$k$ teacher and student logits, and leverages the internal logits ranking information by constructing logits differences. To evaluate BiLD loss, we conduct comprehensive experiments on 13 datasets using two types of LLMs. Our results show that the BiLD loss, with only the top-8 logits, outperforms supervised fine-tuning (SFT), vanilla KL loss, and five other distillation methods from both NLP and CV fields.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)は,自然言語処理(NLP)タスクにまたがる例外的な機能を示している。
しかしながら、このような印象的なパフォーマンスは、パラメータサイズが大きくなるというトレードオフによってもたらされることが多く、広く展開する上で大きな課題を招きます。
知識蒸留(KD)は、大きな教師モデルからより小さな学生モデルに知識を移すことによって解を提供する。
本稿では,LLMのロージットレベルでのタスク特異的蒸留について検討する。
本研究により, 微調整LDMのロジットは, 視覚モデルよりも極端に長い尾分布を示し, 長い尾に隠れた「ノイズ」が蒸留性能に影響を及ぼすことが明らかとなった。
さらに、既存のロジット蒸留法は、ロジットの内部ランキング情報を効果的に活用するのに苦労することが多い。
これらの問題に対処するために,双方向ロジット差分(BiLD)の損失を提案する。
BiLD損失は、教師と学生のロジットのトップ$kだけを利用して、ロングテールノイズをフィルタリングし、ロジットの違いを構築することで、内部ロジットランキング情報を活用する。
BiLD損失を評価するために,2種類のLLMを用いて13のデータセットの総合的な実験を行った。
以上の結果より, BiLD の損失は, 上位8ロジットのみであり, 監督的微調整 (SFT) , バニラKL の損失, NLP および CV フィールドからの5つの蒸留方法よりも優れていた。
関連論文リスト
- Mentor-KD: Making Small Language Models Better Multi-step Reasoners [15.159415340059388]
我々は,LLMのマルチステップ推論能力をより小さいLMに効果的に蒸留するメンター-KDを提案する。
我々は、メンタ、中間サイズのタスク固有の微調整モデルを利用して、追加のCoTアノテーションを強化します。
我々は広範囲な実験を行い、メンターKDの有効性を様々なモデルや複雑な推論タスクで確認する。
論文 参考訳(メタデータ) (2024-10-11T17:53:27Z) - LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。
スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。
また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文 参考訳(メタデータ) (2024-08-28T15:52:23Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - DDK: Distilling Domain Knowledge for Efficient Large Language Models [40.839056203329136]
知識蒸留(KD)は、より小さな言語モデルの性能を向上させる効果的な戦略として登場した。
本稿では,教員モデルと学生モデルとのドメイン性能差に応じて蒸留データセットの構成を調整するDDKについて紹介する。
大規模評価の結果,DDK は学生モデルの性能を著しく向上させ,継続的な事前学習ベースラインと既存の知識蒸留法を大きなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2024-07-23T03:47:28Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。
我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。
実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文 参考訳(メタデータ) (2024-06-28T09:23:40Z) - PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs [47.35598271306371]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-06-05T03:08:25Z) - Towards Cross-Tokenizer Distillation: the Universal Logit Distillation
Loss for LLMs [12.412075695071529]
知識蒸留は、資源集約型の大規模モデルからより小さなモデルへの知識を圧縮することで解を提供する。
我々は,この制限に対処するため,最適輸送を前提としたユニバーサルロジット蒸留(ULD)損失を導入する。
論文 参考訳(メタデータ) (2024-02-19T10:37:29Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。