論文の概要: Put Teacher in Student's Shoes: Cross-Distillation for Ultra-compact Model Compression Framework
- arxiv url: http://arxiv.org/abs/2507.04636v1
- Date: Mon, 07 Jul 2025 03:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.267954
- Title: Put Teacher in Student's Shoes: Cross-Distillation for Ultra-compact Model Compression Framework
- Title(参考訳): 学生の靴に教師を置く:超コンパクトモデル圧縮フレームワークのためのクロス蒸留
- Authors: Maolin Wang, Jun Chu, Sicong Xie, Xiaoling Zang, Yao Zhao, Wenliang Zhong, Xiangyu Zhao,
- Abstract要約: We introduced Edge Ultra-lIte BERT framework with a novel cross-distillation method。
我々は,自然言語理解(NLU)タスクにおいて,たった1.91MBの非常にコンパクトなBERTモデルを実現する。
- 参考スコア(独自算出の注目度): 48.66685912952879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of mobile computing, deploying efficient Natural Language Processing (NLP) models in resource-restricted edge settings presents significant challenges, particularly in environments requiring strict privacy compliance, real-time responsiveness, and diverse multi-tasking capabilities. These challenges create a fundamental need for ultra-compact models that maintain strong performance across various NLP tasks while adhering to stringent memory constraints. To this end, we introduce Edge ultra-lIte BERT framework (EI-BERT) with a novel cross-distillation method. EI-BERT efficiently compresses models through a comprehensive pipeline including hard token pruning, cross-distillation and parameter quantization. Specifically, the cross-distillation method uniquely positions the teacher model to understand the student model's perspective, ensuring efficient knowledge transfer through parameter integration and the mutual interplay between models. Through extensive experiments, we achieve a remarkably compact BERT-based model of only 1.91 MB - the smallest to date for Natural Language Understanding (NLU) tasks. This ultra-compact model has been successfully deployed across multiple scenarios within the Alipay ecosystem, demonstrating significant improvements in real-world applications. For example, it has been integrated into Alipay's live Edge Recommendation system since January 2024, currently serving the app's recommendation traffic across \textbf{8.4 million daily active devices}.
- Abstract(参考訳): モバイルコンピューティングの時代において、リソース制限されたエッジ設定に効率的な自然言語処理(NLP)モデルをデプロイすることは、特に厳格なプライバシコンプライアンス、リアルタイムの応答性、多様なマルチタスク機能を必要とする環境において、大きな課題となる。
これらの課題は、厳密なメモリ制約に固執しながら、様々なNLPタスクにまたがる強力なパフォーマンスを維持する超コンパクトモデルに対する根本的なニーズを生み出します。
この目的のために,新しいクロス蒸留法を用いたEdge Ultra-lIte BERT フレームワーク (EI-BERT) を導入する。
EI-BERTは、ハードトークンプルーニング、クロス蒸留、パラメータ量子化を含む包括的なパイプラインを通じてモデルを効率的に圧縮する。
具体的には, クロス蒸留法は, 生徒モデルの視点を理解し, パラメータ統合による効率的な知識伝達と, モデル間の相互の相互作用を確実にするために, 教師モデルを一意に配置する。
広範にわたる実験により,我々は,自然言語理解(NLU)タスクにおいて,これまでで最小の1.91MBの極めてコンパクトなBERTモデルを実現する。
この超コンパクトモデルはAlipayエコシステム内の複数のシナリオに展開され、現実世界のアプリケーションで大幅に改善されている。
例えば、2024年1月以降、Alipayのライブエッジレコメンデーションシステムに統合され、現在、毎日のアクティブデバイスであるtextbf{8.4百万というアプリのレコメンデーショントラフィックを提供している。
関連論文リスト
- TD-MPC-Opt: Distilling Model-Based Multi-Task Reinforcement Learning Agents [1.6574413179773757]
モデルに基づく強化学習における知識伝達に対する新しいアプローチを提案する。
提案手法は, 高容量マルチタスクエージェントをコンパクトなモデルに効率よく蒸留する。
われわれのアプローチは、実際の展開制限に対処し、大世界モデルにおける知識表現に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-07-02T15:38:49Z) - Knowledge Grafting of Large Language Models [35.09135973799701]
大規模言語モデル(LLM)研究において,クロスキャパビリティ・トランスファーは重要な課題である。
FuseLLMやFuseChatといった最近の研究は、複数のモデル機能を軽量モデルに転送する可能性を実証している。
本稿では,SkillPackフォーマットのターゲットモデルにソースモデル機能を格納する新しい手法であるGraftLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-24T04:43:24Z) - Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - On Giant's Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion [23.63688816017186]
既存の弱強法では、静的な知識伝達比と、複雑な知識を伝達するための単一の小さなモデルを用いることが多い。
本稿では,複数のタスク固有小モデルに対して,それぞれ異なるタスクに特化して動作する動的ロジット融合手法を提案する。
本手法では,シングルタスクシナリオでは96.4%,マルチタスクシナリオでは86.3%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2024-06-17T03:07:41Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文 参考訳(メタデータ) (2021-10-14T17:40:08Z) - You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。
圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文 参考訳(メタデータ) (2021-06-04T12:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。