論文の概要: Matryoshka Model Learning for Improved Elastic Student Models
- arxiv url: http://arxiv.org/abs/2505.23337v2
- Date: Mon, 02 Jun 2025 09:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.053185
- Title: Matryoshka Model Learning for Improved Elastic Student Models
- Title(参考訳): 改良された弾性学生モデルのためのマトリオシュカモデル学習
- Authors: Chetan Verma, Aditya Srinivas Timmaraju, Cho-Jui Hsieh, Suyash Damle, Ngot Bui, Yang Zhang, Wen Chen, Xin Liu, Prateek Jain, Inderjit S Dhillon,
- Abstract要約: MatTAは、新しいTeacher-TA-Studentレシピを使用して、複数の正確な学生モデルをトレーニングするためのフレームワークである。
本手法はパブリックモデルであるGPT-2 Medium上で実証し,SAT Mathで24%,LAMBADAベンチマークで10%以上の相対的な改善を実現した。
- 参考スコア(独自算出の注目度): 62.154536258259384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Industry-grade ML models are carefully designed to meet rapidly evolving serving constraints, which requires significant resources for model development. In this paper, we propose MatTA, a framework for training multiple accurate Student models using a novel Teacher-TA-Student recipe. TA models are larger versions of the Student models with higher capacity, and thus allow Student models to better relate to the Teacher model and also bring in more domain-specific expertise. Furthermore, multiple accurate Student models can be extracted from the TA model. Therefore, despite only one training run, our methodology provides multiple servable options to trade off accuracy for lower serving cost. We demonstrate the proposed method, MatTA, on proprietary datasets and models. Its practical efficacy is underscored by live A/B tests within a production ML system, demonstrating 20% improvement on a key metric. We also demonstrate our method on GPT-2 Medium, a public model, and achieve relative improvements of over 24% on SAT Math and over 10% on the LAMBADA benchmark.
- Abstract(参考訳): 業界グレードのMLモデルは、急速に進化するサービス制約を満たすように設計されており、モデル開発にはかなりのリソースを必要とする。
本稿では,教師-TA-Student のレシピを用いて,複数の正確な学生モデルを学習するためのフレームワークである MatTA を提案する。
TAモデルは、より高い能力を持つ学生モデルのより大きなバージョンであり、学生モデルは教師モデルとより深く関連し、より多くのドメイン固有の専門知識をもたらすことができる。
さらに、TAモデルから複数の正確な学生モデルを抽出することができる。
したがって、トレーニングは1回しか行っていないが、当社の手法は、低コストで精度をトレードオフする複数の可観測性オプションを提供する。
プロプライエタリなデータセットとモデル上で,提案手法であるMatTAを実証する。
実効性は実運用MLシステム内でのライブA/Bテストによって評価され、キーメトリックで20%改善されている。
また,公共モデルであるGPT-2 Medium上での手法を実証し,SAT Mathで24%,LAMBADAベンチマークで10%以上の相対的な改善を実現した。
関連論文リスト
- Knowledge Distillation for Enhancing Walmart E-commerce Search Relevance Using Large Language Models [6.324684465674387]
大規模言語モデル(LLM)は優れたランキング機能を提供しますが、高レイテンシ要求のため、リアルタイムシステムにデプロイすることは困難です。
高性能LLMをより効率的で低レイテンシの学生モデルに蒸留する新しいフレームワークを提案する。
学生モデルは、非常に肯定的な指標でWalmart.comで生産に成功している。
論文 参考訳(メタデータ) (2025-05-11T20:00:00Z) - CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation [57.91828170220308]
本稿では,大規模視覚基盤モデル(LVFM)を効果的に活用し,エッジモデルの性能を向上させる知識蒸留手法であるCustomKDを提案する。
我々のシンプルで効果的なCustomKDは、LVFMに固有のよく一般化された特徴を、モデルの違いを減らすために、与えられた学生モデルにカスタマイズする。
論文 参考訳(メタデータ) (2025-03-23T23:53:08Z) - All models are wrong, some are useful: Model Selection with Limited Labels [49.62984196182567]
本稿では,事前学習した分類器をラベル効率で選択するフレームワークであるMODEL SELECTORを紹介する。
MODEL SELECTOR はラベル付きデータの必要性を劇的に減らし,最良あるいは最良に近い性能のモデルを選択することを示す。
モデル選択におけるMODEL SELECTORのロバスト性をさらに強調し, 最良モデルを選択する場合, ラベル付けコストを最大72.41%削減する。
論文 参考訳(メタデータ) (2024-10-17T14:45:56Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Collaborative Learning for Enhanced Unsupervised Domain Adaptation [15.97351561456467]
UDA(Collaborative Learning for UDA)は,教師の非塩分パラメータを学生モデルを用いて更新する手法である。
CLDAは、GTA-to-Cityscapesデータセットのベースラインモデルと比較して、教師モデルで+0.7% mIoU、学生モデルで+1.4% mIoUの改善を実現している。
論文 参考訳(メタデータ) (2024-09-04T13:35:15Z) - Model Stock: All we need is just a few fine-tuned models [34.449901046895185]
本稿では,大規模な事前学習モデルに対する効率的な微調整手法を提案し,強力な分布内分散(ID)と分布外分散(OOD)性能を提供する。
最終的な重量を達成するために、はるかに少ないモデルを採用するが、精度は優れている。
事前学習型CLIPアーキテクチャに基づく微調整モデルを用いたモデルストックの有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T15:57:20Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。