論文の概要: DiMS: Distilling Multiple Steps of Iterative Non-Autoregressive
Transformers for Machine Translation
- arxiv url: http://arxiv.org/abs/2206.02999v2
- Date: Fri, 9 Jun 2023 20:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 03:01:29.463246
- Title: DiMS: Distilling Multiple Steps of Iterative Non-Autoregressive
Transformers for Machine Translation
- Title(参考訳): DiMS: 機械翻訳のための反復非自己回帰変換器の多段蒸留
- Authors: Sajad Norouzi, Rasa Hosseinzadeh, Felipe Perez, Maksims Volkovs
- Abstract要約: 本研究では,Distill Multiple Steps (DiMS)を導入し,特定の翻訳品質に到達するために必要なステップ数を削減した。
単一ステップの翻訳精度において、7.8 と 12.9 のBLEU 点の改善が得られる様々なモデルにおける DiMS の有効性を検証する。
- 参考スコア(独自算出の注目度): 9.342645867445658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The computational benefits of iterative non-autoregressive transformers
decrease as the number of decoding steps increases. As a remedy, we introduce
Distill Multiple Steps (DiMS), a simple yet effective distillation technique to
decrease the number of required steps to reach a certain translation quality.
The distilled model enjoys the computational benefits of early iterations while
preserving the enhancements from several iterative steps. DiMS relies on two
models namely student and teacher. The student is optimized to predict the
output of the teacher after multiple decoding steps while the teacher follows
the student via a slow-moving average. The moving average keeps the teacher's
knowledge updated and enhances the quality of the labels provided by the
teacher. During inference, the student is used for translation and no
additional computation is added. We verify the effectiveness of DiMS on various
models obtaining 7.8 and 12.9 BLEU points improvements in single-step
translation accuracy on distilled and raw versions of WMT'14 De-En.
- Abstract(参考訳): 繰り返し非自己回帰変換器の計算上の利点は復号ステップの数が増えるにつれて減少する。
本稿では, 簡易かつ効果的な蒸留技術であるDistill Multiple Steps (DiMS)を導入し, 一定の翻訳品質に達するために必要なステップ数を削減した。
蒸留モデルは、いくつかの反復的なステップからの強化を保ちながら、初期のイテレーションの計算上の利点を享受する。
DiMSは学生と教師という2つのモデルに依存している。
生徒は複数のデコードステップを経て教師の出力を予測するように最適化され、教師はゆっくり動く平均で生徒を追いかける。
移動平均は教師の知識を更新させ、教師が提供するラベルの品質を高める。
推論の間、学生は翻訳に使われ、追加の計算は追加されない。
我々は,WMT'14 De-Enの蒸留および原版における単一ステップ翻訳精度の7.8および12.9BLEU点精度向上に対するDiMSの有効性を検証する。
関連論文リスト
- Machine Learning for Quantifier Selection in cvc5 [1.8749305679160366]
我々は、どの量化器をインスタンス化すべきか、どちらがそうでないかを解決者に知らせる効率的な機械学習モデルを訓練する。
そこで本研究では,Mizar Mathematical Libraryから収集した大量の一階問題に基づいて学習を行った結果,システムのホールドアウトセット性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-26T15:07:35Z) - Don't Throw Away Data: Better Sequence Knowledge Distillation [60.60698363739434]
本稿では,知識蒸留訓練において,最小ベイズリスク(MBR)の復号化をより厳密に行うことを目的とする。
英語からドイツ語,英語,日本語への翻訳実験では,強いベースライン法よりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-07-15T06:11:18Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - Matching Guided Distillation [11.499838489987624]
特徴蒸留はより小型の学生モデルの性能向上に有効な方法である。
教師と学生の中間的特徴の間には意味的特徴構造にギャップがある。
これらの問題を解決するために, MGD (Matching Guided Distillation) を効率的かつパラメータフリーな方法として提示する。
論文 参考訳(メタデータ) (2020-08-23T04:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。