論文の概要: Nearest Neighbor Knowledge Distillation for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2205.00479v1
- Date: Sun, 1 May 2022 14:30:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 14:26:39.518760
- Title: Nearest Neighbor Knowledge Distillation for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のための近接近傍知識蒸留
- Authors: Zhixian Yang, Renliang Sun, Xiaojun Wan
- Abstract要約: k-nearest-neighbor machine translation (NN-MT) は機械翻訳タスクにおける最先端の結果の多くを達成している。
NN-KDはベースNMTモデルをトレーニングし、NNの知識を直接学習する。
- 参考スコア(独自算出の注目度): 50.0624778757462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: k-nearest-neighbor machine translation (NN-MT), proposed by Khandelwal et al.
(2021), has achieved many state-of-the-art results in machine translation
tasks. Although effective, NN-MT requires conducting NN searches through the
large datastore for each decoding step during inference, prohibitively
increasing the decoding cost and thus leading to the difficulty for the
deployment in real-world applications. In this paper, we propose to move the
time-consuming NN search forward to the preprocessing phase, and then introduce
Nearest Neighbor Knowledge Distillation (NN-KD) that trains the base NMT model
to directly learn the knowledge of NN. Distilling knowledge retrieved by NN can
encourage the NMT model to take more reasonable target tokens into
consideration, thus addressing the overcorrection problem. Extensive
experimental results show that, the proposed method achieves consistent
improvement over the state-of-the-art baselines including NN-MT, while
maintaining the same training and decoding speed as the standard NMT model.
- Abstract(参考訳): k-nearest-neighbor machine translation (NN-MT) は Khandelwal et al. (2021) によって提案され、機械翻訳タスクにおいて多くの最先端の結果を得た。
NN-MTは実効性はあるものの、推論中の各デコードステップごとに大規模なデータストアを通じてNN検索を実行する必要があるため、デコードコストが著しく増加し、現実世界のアプリケーションへのデプロイが困難になる。
本稿では,時間を要するNN検索を前処理フェーズに移動させ,次に,NNの知識を直接学習するためのベースNMTモデルをトレーニングするNearest Neighbor Knowledge Distillation(NN-KD)を導入することを提案する。
NNが取得した知識を蒸留することで、NMTモデルはより合理的な目標トークンを考慮に入れ、オーバーコレクション問題に対処することができる。
その結果,提案手法はNN-MTを含む最先端のベースラインに対して一貫した改善を実現し,標準NMTモデルと同じトレーニングおよび復号速度を維持した。
関連論文リスト
- Code-Switching with Word Senses for Pretraining in Neural Machine
Translation [107.23743153715799]
ニューラルネットワーク翻訳のための単語センス事前学習(WSP-NMT)について紹介する。
WSP-NMTは、知識ベースからの単語感覚情報を活用した多言語NMTモデルの事前学習のためのエンドツーエンドアプローチである。
実験の結果,全体の翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-21T16:13:01Z) - A DPLL(T) Framework for Verifying Deep Neural Networks [9.422860826278788]
人手によるソフトウェアと同じように、Deep Neural Networks(DNN)にもバグがあり、攻撃できる。
我々は,現代のSMTソルバで広く使われているDPLL(T)アルゴリズムに適応する新しい検証手法であるNeuralSATを紹介する。
論文 参考訳(メタデータ) (2023-07-17T18:49:46Z) - Towards Robust k-Nearest-Neighbor Machine Translation [72.9252395037097]
近年,k-Nearest-Neighbor Machine Translation (kNN-MT)がNMTの重要な研究方向となっている。
その主なアイデアは、NMTモデルを更新することなく翻訳を変更するために、追加のデータストアから有用なキーと値のペアを取得することである。
取り出したノイズペアはモデル性能を劇的に低下させる。
ノイズの影響を軽減するために,頑健なトレーニングを施した信頼性向上kNN-MTモデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:43:39Z) - Adaptive Nearest Neighbor Machine Translation [60.97183408140499]
kNN-MTは、事前訓練されたニューラルネットワーク翻訳とトークンレベルのk-nearest-neighbor検索を組み合わせる。
従来のkNNアルゴリズムは、ターゲットトークンごとに同じ数の近傍を検索する。
ターゲットトークン毎のk個数を動的に決定する適応的kNN-MTを提案する。
論文 参考訳(メタデータ) (2021-05-27T09:27:42Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - Understanding Learning Dynamics for Neural Machine Translation [53.23463279153577]
ロス・チェンジ・アロケーション (LCA)citeplan 2019-loss-change-allocation を用いてNMTの学習力学を理解することを提案する。
LCAは更新毎にデータセット全体の勾配を計算する必要があるため、NMTシナリオで実際に実施するための近似を提示する。
シミュレーション実験により, 近似計算は効率的であり, 実験により一貫した結果が得られることを示した。
論文 参考訳(メタデータ) (2020-04-05T13:32:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。