論文の概要: Continually Learning from Existing Models: Knowledge Accumulation for
Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2212.09097v1
- Date: Sun, 18 Dec 2022 14:41:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:19:49.549820
- Title: Continually Learning from Existing Models: Knowledge Accumulation for
Neural Machine Translation
- Title(参考訳): 既存モデルからの連続学習:ニューラルネットワーク翻訳のための知識蓄積
- Authors: Yuanchi Zhang, Peng Li, Maosong Sun, Yang Liu
- Abstract要約: そこで我々は,NMT (KA-NMT) の知識蓄積問題に対する公式な定義を,対応するデータセットと評価指標を用いて提案する。
トークンレベルで既存のモデルから有用な知識を識別する新しい知識検出アルゴリズムについて検討する。
我々は、有益な知識から学び、学習効率を向上させるために、他の知識に対して同時に学習することを提案する。
- 参考スコア(独自算出の注目度): 74.03622486218597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although continually extending an existing NMT model to new domains or
languages has attracted intensive interest in recent years, the equally
valuable problem of continually improving a given NMT model in its domain by
leveraging knowledge from an unlimited number of existing NMT models is not
explored yet. To facilitate the study, we propose a formal definition for the
problem named knowledge accumulation for NMT (KA-NMT) with corresponding
datasets and evaluation metrics and develop a novel method for KA-NMT. We
investigate a novel knowledge detection algorithm to identify beneficial
knowledge from existing models at token level, and propose to learn from
beneficial knowledge and learn against other knowledge simultaneously to
improve learning efficiency. To alleviate catastrophic forgetting, we further
propose to transfer knowledge from previous to current version of the given
model. Extensive experiments show that our proposed method significantly and
consistently outperforms representative baselines under homogeneous,
heterogeneous, and malicious model settings for different language pairs.
- Abstract(参考訳): 既存のNMTモデルを新しいドメインや言語に継続的に拡張することは近年、大きな関心を集めているが、既存のNMTモデルから無制限の知識を活用することで、その領域で与えられたNMTモデルを継続的に改善する、等しく価値のある問題は、まだ検討されていない。
そこで本研究では,NMT (KA-NMT) の知識蓄積問題に対して,対応するデータセットと評価指標を用いた公式な定義を提案し,KA-NMTの新しい手法を開発した。
本研究では,既存のモデルから有益な知識をトークンレベルで識別する新しい知識検出アルゴリズムを調査し,有益な知識から学び,他の知識に対して同時に学習し,学習効率を向上させることを提案する。
破滅的な忘れを緩和するために、我々はさらに、与えられたモデルの以前のバージョンから現在のバージョンへ知識を移すよう提案する。
実験の結果,提案手法は,言語ペアの同質,異質,悪質なモデル設定において,代表的ベースラインを大幅に上回ることがわかった。
関連論文リスト
- Efficient Machine Translation with a BiLSTM-Attention Approach [0.0]
本稿では,翻訳品質の向上を目的とした新しいSeq2Seqモデルを提案する。
このモデルでは、双方向長短期記憶ネットワーク(Bidirectional Long Short-Term Memory Network, Bi-LSTM)をエンコーダとして使用し、入力シーケンスのコンテキスト情報をキャプチャする。
現在の主流トランスフォーマーモデルと比較して,本モデルはWMT14機械翻訳データセットにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-10-29T01:12:50Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Efficient Speech Translation with Pre-trained Models [13.107314023500349]
本研究では,事前学習モデルに基づいて,ケースドとエンド・ツー・エンドの音声翻訳システムを構築するための効率的な手法を検討する。
エンド・ツー・エンドのモデルはカスケードモデルよりも優れた翻訳性能を示すが、この技術の適用はエンド・ツー・エンドのトレーニングデータの追加の必要性に制限がある。
論文 参考訳(メタデータ) (2022-11-09T15:07:06Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - A Hybrid Approach for Improved Low Resource Neural Machine Translation
using Monolingual Data [0.0]
多くの言語ペアは低リソースであるため、利用可能な並列データの量や品質は、ニューラルネットワーク翻訳(NMT)モデルをトレーニングするのに十分ではない。
本研究は, 後方モデルと前方モデルの両方が単言語的対象データから恩恵を受けられるような, 新たなアプローチを提案する。
論文 参考訳(メタデータ) (2020-11-14T22:18:45Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。