論文の概要: Pluggable Neural Machine Translation Models via Memory-augmented
Adapters
- arxiv url: http://arxiv.org/abs/2307.06029v1
- Date: Wed, 12 Jul 2023 09:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 13:39:25.771460
- Title: Pluggable Neural Machine Translation Models via Memory-augmented
Adapters
- Title(参考訳): メモリ提供アダプタによるプラガブルニューラルマシン翻訳モデル
- Authors: Yuzhuang Xu, Shuo Wang, Peng Li, Xuebo Liu, Xiaolong Wang, Weidong
Liu, Yang Liu
- Abstract要約: プリトレーニングされたNMTモデルをプラガブルな方法でステアリングするためのメモリ拡張アダプタを提案する。
具体的には,ユーザが提供するテキストサンプルに基づいて,多粒性メモリを構築する。
また,NMTモデルとメモリ間の素早い依存関係を低減するため,メモリドロップアウトを用いたトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 23.170575392498055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although neural machine translation (NMT) models perform well in the general
domain, it remains rather challenging to control their generation behavior to
satisfy the requirement of different users. Given the expensive training cost
and the data scarcity challenge of learning a new model from scratch for each
user requirement, we propose a memory-augmented adapter to steer pretrained NMT
models in a pluggable manner. Specifically, we construct a multi-granular
memory based on the user-provided text samples and propose a new adapter
architecture to combine the model representations and the retrieved results. We
also propose a training strategy using memory dropout to reduce spurious
dependencies between the NMT model and the memory. We validate our approach on
both style- and domain-specific experiments and the results indicate that our
method can outperform several representative pluggable baselines.
- Abstract(参考訳): ニューラルマシン翻訳(nmt)モデルは一般領域でうまく機能するが、異なるユーザのニーズを満たすために生成動作を制御することは依然として困難である。
コストのかかるトレーニングコストとユーザ要求毎に新しいモデルをスクラッチから学習する際のデータ不足を考慮し、プリトレーニングされたNMTモデルをプラガブルに操るメモリ拡張アダプタを提案する。
具体的には,ユーザが提供するテキストサンプルに基づいて複数粒度メモリを構築し,モデル表現と検索結果を組み合わせた新しいアダプタアーキテクチャを提案する。
また,NMTモデルとメモリ間の素早い依存関係を低減するため,メモリドロップアウトを用いたトレーニング戦略を提案する。
提案手法はスタイルとドメイン固有の実験の両方において検証し,提案手法がいくつかの代表的プラグ可能なベースラインより優れていることを示す。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Fitting a Directional Microstructure Model to Diffusion-Relaxation MRI
Data with Self-Supervised Machine Learning [2.8167227950959206]
教師付き学習の魅力的な代替手段として、自己教師型機械学習が登場している。
本稿では,指向性マイクロ構造モデルに適用可能な自己教師型機械学習モデルを実証する。
提案手法は, パラメータ推定と計算時間において, 通常の非線形最小二乗整合と比較して明らかに改善されている。
論文 参考訳(メタデータ) (2022-10-05T15:51:39Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Recurrent Stacking of Layers in Neural Networks: An Application to
Neural Machine Translation [18.782750537161615]
我々は、全ての層にパラメータを共有することで、繰り返し積み重ねられたニューラルネットワークモデルを実現することを提案する。
我々は、パラメータが著しく少ないにもかかわらず、単一のレイヤを6回繰り返し積み重ねるモデルの翻訳品質が、各レイヤが異なるパラメータを持つ6つのレイヤを積み重ねるモデルの翻訳品質にアプローチすることを実証的に示す。
論文 参考訳(メタデータ) (2021-06-18T08:48:01Z) - Improved Semantic Role Labeling using Parameterized Neighborhood Memory
Adaptation [22.064890647610348]
本稿では,アクティベーションのメモリにおける近接するトークンのパラメータ化表現を用いたパラメータ化近傍メモリ適応(PNMA)手法を提案する。
単語埋め込みの種類に関係なく,PNMAはベースモデルのSRL性能を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-11-29T22:51:25Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。