論文の概要: Nearest Neighbor Machine Translation is Meta-Optimizer on Output
Projection Layer
- arxiv url: http://arxiv.org/abs/2305.13034v1
- Date: Mon, 22 May 2023 13:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 15:43:09.265136
- Title: Nearest Neighbor Machine Translation is Meta-Optimizer on Output
Projection Layer
- Title(参考訳): 最近傍の機械翻訳は出力投影層上でのメタオプティマイザである
- Authors: Ruize Gao, Zhirui Zhang, Yichao Du, Lemao Liu, Rui Wang
- Abstract要約: Nearest Neighbor Machine Translation (k$NN-MT)はドメイン適応タスクで大きな成功を収めた。
理論的および実証的研究を通じて,$k$NN-MTの包括的分析を行う。
- 参考スコア(独自算出の注目度): 28.137707649651073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nearest Neighbor Machine Translation ($k$NN-MT) has achieved great success on
domain adaptation tasks by integrating pre-trained Neural Machine Translation
(NMT) models with domain-specific token-level retrieval. However, the reasons
underlying its success have not been thoroughly investigated. In this paper, we
provide a comprehensive analysis of $k$NN-MT through theoretical and empirical
studies. Initially, we offer a theoretical interpretation of the working
mechanism of $k$NN-MT as an efficient technique to implicitly execute gradient
descent on the output projection layer of NMT, indicating that it is a specific
case of model fine-tuning. Subsequently, we conduct multi-domain experiments
and word-level analysis to examine the differences in performance between
$k$NN-MT and entire-model fine-tuning. Our findings suggest that: (1)
Incorporating $k$NN-MT with adapters yields comparable translation performance
to fine-tuning on in-domain test sets, while achieving better performance on
out-of-domain test sets; (2) Fine-tuning significantly outperforms $k$NN-MT on
the recall of low-frequency domain-specific words, but this gap could be
bridged by optimizing the context representations with additional adapter
layers.
- Abstract(参考訳): Nearest Neighbor Machine Translation (k$NN-MT)は、訓練済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルの検索を統合することで、ドメイン適応タスクにおいて大きな成功を収めた。
しかし、その成功の背景にある理由は十分に調査されていない。
本稿では,理論的および実証的研究を通じて,$k$NN-MTの包括的分析を行う。
当初、NMTの出力射影層に勾配降下を暗黙的に実行する効率的な手法として$k$NN-MTの作用機構の理論的解釈を提供し、モデル微調整の特定の事例であることを示す。
その後、我々は、$k$NN-MTとモデル全体の微調整性能の違いを調べるために、複数ドメインの実験と単語レベルの分析を行う。
その結果,(1) ドメイン内テストセットの微調整に比較して$k$NN-MTをアダプタに組み込むことは,ドメイン内テストセットの微調整に匹敵するものの,(2) 低周波ドメイン固有単語のリコール時に$k$NN-MTを著しく上回るが,追加のアダプタレイヤでコンテキスト表現を最適化することで,このギャップを埋めることができることがわかった。
関連論文リスト
- Efficient k-Nearest-Neighbor Machine Translation with Dynamic Retrieval [49.825549809652436]
$k$NN-MTはドメイン固有の翻訳知識を保持するために外部データストアを構築する。
適応検索(k$NN-MT-AR)は、$lambda$を動的に推定し、$lambda$が固定しきい値以下であれば$k$NN検索をスキップする。
本稿では,バニラ$k$NN-MTを大幅に拡張した動的検索(k$NN-MT-DR)を提案する。
論文 参考訳(メタデータ) (2024-06-10T07:36:55Z) - Towards Reliable Neural Machine Translation with Consistency-Aware
Meta-Learning [24.64700139151659]
現在のニューラル機械翻訳(NMT)システムは信頼性の欠如に悩まされている。
本稿では,モデルに依存しないメタラーニング(MAML)アルゴリズムをベースとした,一貫性を考慮したメタラーニング(CAML)フレームワークを提案する。
我々は、NIST中国語から英語へのタスク、3つのWMT翻訳タスク、TED M2Oタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-03-20T09:41:28Z) - Simple and Scalable Nearest Neighbor Machine Translation [11.996135740547897]
$k$NN-MTは、高速なドメイン適応のための強力なアプローチである。
簡便でスケーラブルな近接機械翻訳フレームワークを提案する。
提案手法は性能劣化のないNMTモデルとしてほぼ90%の高速化を実現する。
論文 参考訳(メタデータ) (2023-02-23T17:28:29Z) - DaLC: Domain Adaptation Learning Curve Prediction for Neural Machine
Translation [10.03007605098947]
ニューラルネットワーク翻訳(NMT)モデルのドメイン適応(DA)は、しばしば、ドメイン内の並列データのサンプルに基づいて新しいドメインに適応する訓練済みの一般NMTモデルに依存する。
本稿では,ソース言語におけるドメイン内単言語サンプルに基づいて,DAのパフォーマンスを予測可能なドメイン学習曲線予測(DaLC)モデルを提案する。
論文 参考訳(メタデータ) (2022-04-20T06:57:48Z) - Efficient Cluster-Based k-Nearest-Neighbor Machine Translation [65.69742565855395]
k-Nearest-Neighbor Machine Translation (kNN-MT)は、最近、ニューラルネットワーク翻訳(NMT)におけるドメイン適応のための非パラメトリックソリューションとして提案されている。
論文 参考訳(メタデータ) (2022-04-13T05:46:31Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Understanding Learning Dynamics for Neural Machine Translation [53.23463279153577]
ロス・チェンジ・アロケーション (LCA)citeplan 2019-loss-change-allocation を用いてNMTの学習力学を理解することを提案する。
LCAは更新毎にデータセット全体の勾配を計算する必要があるため、NMTシナリオで実際に実施するための近似を提示する。
シミュレーション実験により, 近似計算は効率的であり, 実験により一貫した結果が得られることを示した。
論文 参考訳(メタデータ) (2020-04-05T13:32:58Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。