論文の概要: Nearest Neighbor Machine Translation is Meta-Optimizer on Output
Projection Layer
- arxiv url: http://arxiv.org/abs/2305.13034v2
- Date: Tue, 24 Oct 2023 10:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 00:53:37.621256
- Title: Nearest Neighbor Machine Translation is Meta-Optimizer on Output
Projection Layer
- Title(参考訳): 最近傍の機械翻訳は出力投影層上でのメタオプティマイザである
- Authors: Ruize Gao, Zhirui Zhang, Yichao Du, Lemao Liu, Rui Wang
- Abstract要約: Nearest Neighbor Machine Translation (k$NN-MT)はドメイン適応タスクで大きな成功を収めた。
理論的および実証的研究を通じて,$k$NN-MTを包括的に分析した。
- 参考スコア(独自算出の注目度): 44.02848852485475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nearest Neighbor Machine Translation ($k$NN-MT) has achieved great success in
domain adaptation tasks by integrating pre-trained Neural Machine Translation
(NMT) models with domain-specific token-level retrieval. However, the reasons
underlying its success have not been thoroughly investigated. In this paper, we
comprehensively analyze $k$NN-MT through theoretical and empirical studies.
Initially, we provide new insights into the working mechanism of $k$NN-MT as an
efficient technique to implicitly execute gradient descent on the output
projection layer of NMT, indicating that it is a specific case of model
fine-tuning. Subsequently, we conduct multi-domain experiments and word-level
analysis to examine the differences in performance between $k$NN-MT and
entire-model fine-tuning. Our findings suggest that: (1) Incorporating $k$NN-MT
with adapters yields comparable translation performance to fine-tuning on
in-domain test sets, while achieving better performance on out-of-domain test
sets; (2) Fine-tuning significantly outperforms $k$NN-MT on the recall of
in-domain low-frequency words, but this gap could be bridged by optimizing the
context representations with additional adapter layers.
- Abstract(参考訳): Nearest Neighbor Machine Translation (k$NN-MT)は、訓練済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルの検索を統合することで、ドメイン適応タスクにおいて大きな成功を収めた。
しかし、その成功の背景にある理由は十分に調査されていない。
本稿では,理論的および実証的研究を通じて,$k$NN-MTを包括的に分析する。
当初,NMTの出力射影層に勾配降下を暗黙的に実行する手法として,$k$NN-MTの動作機構に関する新たな知見を提供し,モデル微調整の特定の事例であることを示す。
その後、我々は、$k$NN-MTとモデル全体の微調整性能の違いを調べるために、複数ドメインの実験と単語レベルの分析を行う。
その結果、(1)アダプタに$k$nn-mtを組み込むことで、ドメイン内テストセットの微調整と同等の翻訳性能が得られると同時に、ドメイン外テストセットのパフォーマンスも向上し、(2)ドメイン内低頻度単語のリコールでは$k$nn-mtを大きく上回っているが、このギャップは、追加のアダプタ層でコンテキスト表現を最適化することで橋渡しできる。
関連論文リスト
- Efficient k-Nearest-Neighbor Machine Translation with Dynamic Retrieval [49.825549809652436]
$k$NN-MTはドメイン固有の翻訳知識を保持するために外部データストアを構築する。
適応検索(k$NN-MT-AR)は、$lambda$を動的に推定し、$lambda$が固定しきい値以下であれば$k$NN検索をスキップする。
本稿では,バニラ$k$NN-MTを大幅に拡張した動的検索(k$NN-MT-DR)を提案する。
論文 参考訳(メタデータ) (2024-06-10T07:36:55Z) - Towards Reliable Neural Machine Translation with Consistency-Aware
Meta-Learning [24.64700139151659]
現在のニューラル機械翻訳(NMT)システムは信頼性の欠如に悩まされている。
本稿では,モデルに依存しないメタラーニング(MAML)アルゴリズムをベースとした,一貫性を考慮したメタラーニング(CAML)フレームワークを提案する。
我々は、NIST中国語から英語へのタスク、3つのWMT翻訳タスク、TED M2Oタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-03-20T09:41:28Z) - Simple and Scalable Nearest Neighbor Machine Translation [11.996135740547897]
$k$NN-MTは、高速なドメイン適応のための強力なアプローチである。
簡便でスケーラブルな近接機械翻訳フレームワークを提案する。
提案手法は性能劣化のないNMTモデルとしてほぼ90%の高速化を実現する。
論文 参考訳(メタデータ) (2023-02-23T17:28:29Z) - DaLC: Domain Adaptation Learning Curve Prediction for Neural Machine
Translation [10.03007605098947]
ニューラルネットワーク翻訳(NMT)モデルのドメイン適応(DA)は、しばしば、ドメイン内の並列データのサンプルに基づいて新しいドメインに適応する訓練済みの一般NMTモデルに依存する。
本稿では,ソース言語におけるドメイン内単言語サンプルに基づいて,DAのパフォーマンスを予測可能なドメイン学習曲線予測(DaLC)モデルを提案する。
論文 参考訳(メタデータ) (2022-04-20T06:57:48Z) - Efficient Cluster-Based k-Nearest-Neighbor Machine Translation [65.69742565855395]
k-Nearest-Neighbor Machine Translation (kNN-MT)は、最近、ニューラルネットワーク翻訳(NMT)におけるドメイン適応のための非パラメトリックソリューションとして提案されている。
論文 参考訳(メタデータ) (2022-04-13T05:46:31Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Understanding Learning Dynamics for Neural Machine Translation [53.23463279153577]
ロス・チェンジ・アロケーション (LCA)citeplan 2019-loss-change-allocation を用いてNMTの学習力学を理解することを提案する。
LCAは更新毎にデータセット全体の勾配を計算する必要があるため、NMTシナリオで実際に実施するための近似を提示する。
シミュレーション実験により, 近似計算は効率的であり, 実験により一貫した結果が得られることを示した。
論文 参考訳(メタデータ) (2020-04-05T13:32:58Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。