論文の概要: Distillation Quantification for Large Language Models
- arxiv url: http://arxiv.org/abs/2501.12619v1
- Date: Wed, 22 Jan 2025 03:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:30:13.699475
- Title: Distillation Quantification for Large Language Models
- Title(参考訳): 大規模言語モデルの蒸留定量化
- Authors: Sunbowen Lee, Junting Zhou, Chang Ao, Kaige Li, Xinrun Du, Sirui He, Jiaheng Liu, Min Yang, Zhoufutu Wen, Shiwen Ni,
- Abstract要約: モデル蒸留は、大きな言語モデルからより小さな言語モデルへ知識を伝達する技術である。
過剰蒸留は均質化を招き、モデルの多様性を低下させ、複雑なタスクを堅牢に処理する能力を損なう。
モデル蒸留の評価と定量化のための枠組みを提案する。
- 参考スコア(独自算出の注目度): 19.298748351794885
- License:
- Abstract: Model distillation is a technique for transferring knowledge from large language models (LLMs) to smaller ones, aiming to create resource-efficient yet high-performing models. However, excessive distillation can lead to homogenization, reducing diversity among models and impairing their ability to robustly handle complex or novel tasks. These limitations underscore the need to systematically quantify the distillation process and its impact. In this work, we propose a framework to evaluate and quantify model distillation. Our method addresses two key aspects: (1) Identifying identity cognition contradictions to assess discrepancies in how models perceive and represent identity-related information, and (2) Analyzing multi-granularity response similarities across models to measure the extent of homogenization. Experimental results demonstrate two key insights: (1) Well-known closed-source and open-source LLMs usually exhibit high distillation degrees, except for Claude, Doubao, and Gemini. (2) Base LLMs show higher distillation degrees compared to aligned LLMs. By offering a systematic approach to improve the transparency of LLM data distillation, we call for LLMs with more independent development and more transparent technical reports to improve LLMs' robustness and safety. The code and data are available under https://github.com/Aegis1863/LLMs-Distillation-Quantification.
- Abstract(参考訳): モデル蒸留は、大規模言語モデル(LLM)からより小さな言語モデルへ知識を伝達する技術であり、資源効率が良く高性能なモデルを作成することを目的としている。
しかし、過剰な蒸留は均質化を招き、モデルの多様性を低下させ、複雑なタスクや新しいタスクを堅牢に処理する能力を損なう。
これらの制限は、蒸留プロセスとその影響を体系的に定量化する必要性を浮き彫りにする。
本研究では, モデル蒸留の評価と定量化のための枠組みを提案する。
本手法は, 同一性認知の矛盾を同定し, モデルが同一性関連情報をどう認識し, 表現するかの相違点を評価すること, および, モデル間での複数粒度応答の類似性を分析し, 均質化の程度を測定することの2つの重要な側面に対処する。
1) クロード,ドゥーバオ,ジェミニを除く,よく知られたクローズドソース LLM とオープンソース LLM は高い蒸留度を示す。
2) 塩基性LDMは, 配向LDMよりも蒸留度が高かった。
LLMデータ蒸留の透明性を高めるための体系的なアプローチを提供することにより、LCMの信頼性と安全性を向上させるために、より独立した開発とより透過的な技術報告をLCMに求める。
コードとデータはhttps://github.com/Aegis1863/LLMs-Distillation-Quantificationで入手できる。
関連論文リスト
- Multi-Level Decoupled Relational Distillation for Heterogeneous Architectures [6.231548250160585]
MLDR-KD(Multi-Level Decoupled Knowledge Distillation)は、CodeAR-100で最大4.86%、Tiny-ImageNetデータセットで2.78%向上した。
論文 参考訳(メタデータ) (2025-02-10T06:41:20Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - AMR-Evol: Adaptive Modular Response Evolution Elicits Better Knowledge Distillation for Large Language Models in Code Generation [56.54840407827354]
本研究は, 反応蒸留を精製するための2段階プロセスを用いた適応型モジュール応答進化(AMR-Evol)フレームワークについて紹介する。
AMR-Evolフレームワークがベースライン応答蒸留法よりも優れていることを示すために,3つのコードベンチマークを用いた実験を行った。
論文 参考訳(メタデータ) (2024-10-01T10:12:38Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - GOLD: Generalized Knowledge Distillation via Out-of-Distribution-Guided Language Data Generation [21.56082253577229]
金はタスクに依存しないデータ生成および知識蒸留フレームワークである。
LLMには反復的なアウト・オブ・ディストリビューション誘導フィードバック機構が採用されている。
ノイズ発生データを扱うためのエネルギーベースOOD評価手法も導入されている。
論文 参考訳(メタデータ) (2024-03-28T18:08:22Z) - ELAD: Explanation-Guided Large Language Models Active Distillation [16.243249111524403]
LLM(Large Language Models)のデプロイメントと適用は、そのメモリ非効率性、計算要求、API推論の高コストによって妨げられている。
LLMの能力をより小さなモデルに伝達する伝統的な蒸留法は、知識が十分に伝達されているかどうかを判断できないことが多い。
本稿では,アノテーションコストとモデル性能のバランスを最適化するために,アクティブラーニング戦略を用いた説明誘導型ELAD(Explaination-Guided LLMs Active Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T15:47:59Z) - Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models [20.28989820878285]
大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。
これらのモデルの大規模かつ計算的な要求は、資源に制約のある環境での実践的展開を考えると、大きな課題となる。
論文 参考訳(メタデータ) (2023-11-15T18:56:23Z) - Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing [59.58984194238254]
本稿では,パラフレーズと文要約のための新しい枠組みであるImpossible Distillationを提案する。
極端に大規模な教師モデルに依存した先行研究とは異なり、パラフラスティックな近在性と事前学習されたLMを仮説化し、検証する。
これらの部分空間から世代を同定して蒸留することにより、インポッシブル蒸留は、GPT2スケールのLMでも高品質なデータセットとモデルを生成する。
論文 参考訳(メタデータ) (2023-05-26T05:19:24Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。