論文の概要: DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs
- arxiv url: http://arxiv.org/abs/2503.07067v1
- Date: Mon, 10 Mar 2025 08:51:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:13.980480
- Title: DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs
- Title(参考訳): DistiLLM-2: LLMの蒸留を促進する対照的なアプローチ
- Authors: Jongwoo Ko, Tianyi Chen, Sungnyun Kim, Tianyu Ding, Luming Liang, Ilya Zharkov, Se-Young Yun,
- Abstract要約: DistiLLM-2は、教師の反応の可能性を同時に増加させ、生徒の反応を減少させる対照的なアプローチである。
実験の結果,DistiLLM-2は様々なタスクにまたがって高性能な学生モデルを構築するだけでなく,多様なアプリケーションをサポートすることがわかった。
- 参考スコア(独自算出の注目度): 58.4911494598431
- License:
- Abstract: Despite the success of distillation in large language models (LLMs), most prior work applies identical loss functions to both teacher- and student-generated data. These strategies overlook the synergy between loss formulations and data types, leading to a suboptimal performance boost in student models. To address this, we propose DistiLLM-2, a contrastive approach that simultaneously increases the likelihood of teacher responses and decreases that of student responses by harnessing this synergy. Our extensive experiments show that DistiLLM-2 not only builds high-performing student models across a wide range of tasks, including instruction-following and code generation, but also supports diverse applications, such as preference alignment and vision-language extensions. These findings highlight the potential of a contrastive approach to enhance the efficacy of LLM distillation by effectively aligning teacher and student models across varied data types.
- Abstract(参考訳): 大規模言語モデル(LLMs)における蒸留の成功にもかかわらず、多くの先行研究は教師と生徒が生成したデータに同一の損失関数を適用している。
これらの戦略は、損失定式化とデータ型間の相乗効果を見落とし、学生モデルにおける最適以下のパフォーマンス向上につながった。
そこで本研究では,教師の反応の可能性を同時に増加させ,このシナジーを利用して生徒の反応を減少させる,対照的なアプローチであるDistiLLM-2を提案する。
我々の広範な実験により、DistiLLM-2は、命令追従やコード生成など幅広いタスクで高性能な学生モデルを構築するだけでなく、好みのアライメントや視覚言語拡張といった多様なアプリケーションもサポートしていることがわかった。
これらの知見は, 教師と学生のモデルを多種多様なデータ型に効果的に整合させることにより, LLM蒸留の有効性を高めるための対照的なアプローチの可能性を強調した。
関連論文リスト
- Distilling Invariant Representations with Dual Augmentation [6.24302896438145]
教師モデルと学生モデルの両方において、不変な特徴学習を促進するために、二重強化戦略を導入する。
我々の手法は、蒸留中に両方のモデルに適用された異なる拡張を活用し、学生に堅牢で伝達可能な特徴をつかむよう促す。
論文 参考訳(メタデータ) (2024-10-12T10:27:23Z) - Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文 参考訳(メタデータ) (2024-08-22T12:04:04Z) - Teaching-Assistant-in-the-Loop: Improving Knowledge Distillation from Imperfect Teacher Models in Low-Budget Scenarios [3.818273633647809]
3種類の信号型を利用した3成分フレームワークを提案する。
最初の信号は学生の自己整合性(学生の複数の出力の整合性)であり、学生の自信の代用となる。
提案した2段階フレームワークは,データセット間の信号を持たない微調整と比較して,20.79%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2024-06-08T02:17:43Z) - Distillation Matters: Empowering Sequential Recommenders to Match the Performance of Large Language Model [12.6937643116018]
大規模言語モデル(LLM)はレコメンデーションとして効果的に利用されており、優れたパフォーマンスを実現している。
しかし、LLMの高推論遅延は、実用的デプロイメントを著しく制限する。
本研究では,LLMに基づく推薦モデルから軽量シーケンシャルモデルへの知識蒸留について検討する。
論文 参考訳(メタデータ) (2024-05-01T06:23:54Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Hybrid Distillation: Connecting Masked Autoencoders with Contrastive
Learners [102.20090188997301]
コントラスト学習(CL)とマスクド画像モデリング(MIM)の強みを組み合わせたモデルを得る方法について検討する。
識別と多様性の両立を図るため, 単純かつ効果的なハイブリッド蒸留戦略を提案する。
実験の結果、Hybrid Distillは異なるベンチマークで優れた性能が得られることが証明された。
論文 参考訳(メタデータ) (2023-06-28T02:19:35Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。