論文の概要: Evolving Knowledge Distillation for Lightweight Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2605.09924v1
- Date: Mon, 11 May 2026 03:21:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.491839
- Title: Evolving Knowledge Distillation for Lightweight Neural Machine Translation
- Title(参考訳): 軽量ニューラルネットワーク翻訳における知識蒸留の展開
- Authors: Xuewen Zhang, Haixiao Zhang, Xinlong Huang,
- Abstract要約: 進化的知識蒸留 (Evolving Knowledge Distillation, EKD) は、学生モデルが、能力が徐々に増大する教師の列から学習するプログレッシブトレーニングフレームワークである。
EKDはキャパシティギャップを効果的に橋渡しし、コンパクトモデルがはるかに大きな教師モデルに近いパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 1.53762673045917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Neural Machine Translation (NMT) have significantly improved translation quality. However, the increasing size and complexity of state-of-the-art models present significant challenges for deployment on resource-limited devices. Knowledge distillation (KD) is a promising approach for compressing models, but its effectiveness diminishes when there is a large capacity gap between teacher and student models. To address this issue, we propose Evolving Knowledge Distillation (EKD), a progressive training framework in which the student model learns from a sequence of teachers with gradually increasing capacities. Experiments on IWSLT-14, WMT-17, and WMT-23 benchmarks show that EKD leads to consistent improvements at each stage. On IWSLT-14, the final student achieves a BLEU score of 34.24, narrowing the gap to the strongest teacher (34.32 BLEU) to just 0.08 BLEU. Similar trends are observed on other datasets. These results demonstrate that EKD effectively bridges the capacity gap, enabling compact models to achieve performance close to that of much larger teacher models.Code and models are available at https://github.com/agi-content-generation/EKD.
- Abstract(参考訳): ニューラルマシン翻訳(NMT)の最近の進歩は翻訳品質を著しく改善した。
しかし、最先端モデルのサイズと複雑さの増大は、リソース制限されたデバイスへの展開に重大な課題をもたらす。
知識蒸留(KD)はモデルを圧縮する上で有望な手法であるが,その有効性は教師と生徒の間に大きな容量ギャップがある場合に低下する。
この問題に対処するために,学生モデルが教師の列から学習する段階的学習フレームワークであるEvolving Knowledge Distillation (EKD)を提案する。
IWSLT-14、WMT-17、WMT-23ベンチマークの実験は、EKDが各段階で一貫した改善をもたらすことを示している。
IWSLT-14では、最終生徒のBLEUスコアは34.24で、最強の教師(34.32 BLEU)とのギャップをわずか0.08 BLEUに縮める。
他のデータセットでも同様の傾向が観察される。
これらの結果から、EKDはキャパシティギャップを効果的に橋渡しし、コンパクトモデルがより大規模な教師モデルに近い性能を達成できることが示され、コードとモデルはhttps://github.com/agi-content-generation/EKDで公開されている。
関連論文リスト
- CustomKD: Customizing Large Vision Foundation for Edge Model Improvement via Knowledge Distillation [57.91828170220308]
本稿では,大規模視覚基盤モデル(LVFM)を効果的に活用し,エッジモデルの性能を向上させる知識蒸留手法であるCustomKDを提案する。
我々のシンプルで効果的なCustomKDは、LVFMに固有のよく一般化された特徴を、モデルの違いを減らすために、与えられた学生モデルにカスタマイズする。
論文 参考訳(メタデータ) (2025-03-23T23:53:08Z) - MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation [17.27883003990266]
VLN(Vision-and-Language Navigation)は、Embodied AIのコアタスクである。
本稿では,2段階の知識蒸留フレームワークを導入し,学生モデルMiniVLNについて述べる。
その結果,2段階蒸留法は,教師モデルと学生モデルのパフォーマンスギャップを狭めるのに有効であることが示唆された。
論文 参考訳(メタデータ) (2024-09-27T14:54:54Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Towards Comparable Knowledge Distillation in Semantic Image Segmentation [0.0]
知識蒸留 (KD) は, セマンティックセグメンテーションにおいて, モデルサイズが大きく, 推論速度が遅い方法の一つとして提案されている。
過去4年間の14の出版物から25の蒸留損失項を抽出した。
論文 参考訳(メタデータ) (2023-09-07T11:56:23Z) - Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC [51.34222224728979]
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
論文 参考訳(メタデータ) (2023-06-10T05:24:29Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。