論文の概要: AMiD: Knowledge Distillation for LLMs with $α$-mixture Assistant Distribution
- arxiv url: http://arxiv.org/abs/2510.15982v1
- Date: Mon, 13 Oct 2025 11:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.745509
- Title: AMiD: Knowledge Distillation for LLMs with $α$-mixture Assistant Distribution
- Title(参考訳): AMiD:$α$-mixture アシスタント分布を持つLLMの知識蒸留
- Authors: Donghyeok Shin, Yeongmin Kim, Suhyeon Jo, Byeonghu Na, Il-Chul Moon,
- Abstract要約: 自己回帰型大規模言語モデル (LLM) は、多くのタスクにおいて著しく改善されているが、高い計算とメモリコストが伴っている。
知識蒸留(KD)は、分布的アライメントを通じて、大きな教師から小さな学生に知識を移すことによって、この問題を緩和する。
これらの課題を克服するために、最近、いくつかのアプローチが暗黙的または明示的にアシスタントディストリビューションを組み込むことが提案されている。
本稿では,KD の統一フレームワークである AMiD を用いた$alpha$-mixture assistant distribution と $alpha$-mixture distillation を提案する。
- 参考スコア(独自算出の注目度): 29.292364571350898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive large language models (LLMs) have achieved remarkable improvement across many tasks but incur high computational and memory costs. Knowledge distillation (KD) mitigates this issue by transferring knowledge from a large teacher to a smaller student through distributional alignment. Previous studies have proposed various discrepancy metrics, but the capacity gap and training instability caused by near-zero probabilities, stemming from the high-dimensional output of LLMs, remain fundamental limitations. To overcome these challenges, several approaches implicitly or explicitly incorporating assistant distribution have recently been proposed. However, the past proposals of assistant distributions have been a fragmented approach without a systematic investigation of the interpolation path and the divergence. This paper proposes $\alpha$-mixture assistant distribution, a novel generalized family of assistant distributions, and $\alpha$-mixture distillation, coined AMiD, a unified framework for KD using the assistant distribution. The $\alpha$-mixture assistant distribution provides a continuous extension of the assistant distribution by introducing a new distribution design variable $\alpha$, which has been fixed in all previous approaches. Furthermore, AMiD generalizes the family of divergences used with the assistant distributions based on optimality, which has also been restricted in previous works. Through extensive experiments, we demonstrate that AMiD offers superior performance and training stability by leveraging a broader and theoretically grounded assistant distribution space.
- Abstract(参考訳): 自己回帰型大規模言語モデル (LLM) は、多くのタスクにおいて著しく改善されているが、高い計算とメモリコストが伴っている。
知識蒸留(KD)は、分布的アライメントを通じて、大きな教師から小さな学生に知識を移すことによって、この問題を緩和する。
従来の研究では様々な相違指標が提案されてきたが、LLMの高次元出力から生じるほぼゼロに近い確率によるキャパシティギャップとトレーニング不安定性は根本的限界のままである。
これらの課題を克服するために、最近、いくつかのアプローチが暗黙的または明示的にアシスタントディストリビューションを組み込むことが提案されている。
しかし,これまでは補間経路と発散の系統的な検討を行なわずに,補間分布の断片化手法が提案されてきた。
本稿では, アシスタント分布を用いたKD統合フレームワークであるAMiDを製造し, 新規な一般化されたアシスタント分布のファミリーである$\alpha$-mixture Assistant Distributionと$\alpha$-mixture distillationを提案する。
$\alpha$-mixture Assistantディストリビューションは、新しい分散設計変数$\alpha$を導入して、アシスタントディストリビューションの継続的拡張を提供する。
さらに、AMiDは、過去の研究でも制限されていた最適性に基づいて、アシスタント分布で使用される分岐の族を一般化する。
広汎な実験により、AMiDはより広範かつ理論的に基礎付けられたアシスタント分布空間を活用することにより、優れた性能と訓練安定性を提供することを示した。
関連論文リスト
- A Distributional-Lifting Theorem for PAC Learning [16.985620991607345]
分散仮定は効率的なアルゴリズムの設計を促進するが、その到達範囲と妥当性は制限される。
ブラン、ランゲ、マリク、タンの最近の研究は、一様分布学習者を持ち上げる特別な事例であると考えた。
これらの手法は, ランダムな例にのみアクセスすることで, 情報論的に抽出可能であることを示す。
次に、$Dstar$を学ぶ必要性を助長する別のアプローチを取り、標準のPACモデルで動作するリフターを生成します。
論文 参考訳(メタデータ) (2025-06-19T23:28:38Z) - Distributional MIPLIB: a Multi-Domain Library for Advancing ML-Guided MILP Methods [14.819629773624348]
混合線形プログラミング(MILP)は最適化問題をモデル化するための基本的なツールである。
このアプローチの人気は高まっているが、同様のMILPインスタンスのディストリビューションを提供する共通のリポジトリがない。
ML誘導MILP法を進化させるための問題分散ライブラリであるDistributedal MIPLIBを紹介する。
論文 参考訳(メタデータ) (2024-06-11T05:25:38Z) - A Distributional Analogue to the Successor Representation [54.99439648059807]
本稿では,分散強化学習のための新しい手法を提案する。
学習プロセスにおける遷移構造と報酬のクリーンな分離を解明する。
実例として,ゼロショットリスクに敏感な政策評価が可能であることを示す。
論文 参考訳(メタデータ) (2024-02-13T15:35:24Z) - Dr. FERMI: A Stochastic Distributionally Robust Fair Empirical Risk
Minimization Framework [12.734559823650887]
分散シフトが存在する場合、公正な機械学習モデルはテストデータに対して不公平に振る舞うことがある。
既存のアルゴリズムはデータへの完全なアクセスを必要とし、小さなバッチを使用する場合には使用できない。
本稿では,因果グラフの知識を必要としない収束保証付き分布安定度フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-20T23:25:28Z) - Distribution Shift Inversion for Out-of-Distribution Prediction [57.22301285120695]
本稿では,OoD(Out-of-Distribution)予測のためのポータブル分布シフト変換アルゴリズムを提案する。
提案手法は,OoDアルゴリズムを広範囲に接続した場合に,一般的な性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2023-06-14T08:00:49Z) - Learnable Distribution Calibration for Few-Shot Class-Incremental
Learning [122.2241120474278]
FSCIL(Few-shot class-incremental Learning)は、古いクラス分布を記憶し、少数のトレーニングサンプルから新しいクラス分布を推定するという課題に直面している。
本稿では,これら2つの課題を統一フレームワークを用いて体系的に解決することを目的とした,学習可能な分布校正手法を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:40:26Z) - Personalized Trajectory Prediction via Distribution Discrimination [78.69458579657189]
トラリミー予測は将来の力学のマルチモーダルな性質を捉えるジレンマと対立する。
本研究では,パーソナライズされた動作パターンを予測するDisDisDis(Disdis)手法を提案する。
本手法は,プラグイン・アンド・プレイモジュールとして既存のマルチモーダル予測モデルと統合することができる。
論文 参考訳(メタデータ) (2021-07-29T17:42:12Z) - Robust Learning of Optimal Auctions [84.13356290199603]
本研究では、入札者の評価値のサンプルを逆向きに破損させたり、逆向きに歪んだ分布から引き出すことができる場合に、サンプルから収益-最適マルチバイダオークションを学習する問題について検討する。
我々は,コルモゴロフ-スミルノフ距離における元の分布に対して$alpha$-closeの「全ての真の分布」に対して,収入がほぼ同時に最適であるメカニズムを学習できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T17:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。