論文の概要: F-MALLOC: Feed-forward Memory Allocation for Continual Learning in Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2404.04846v2
- Date: Tue, 22 Oct 2024 09:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 18:22:39.679933
- Title: F-MALLOC: Feed-forward Memory Allocation for Continual Learning in Neural Machine Translation
- Title(参考訳): F-MALLOC:ニューラルネットワーク翻訳における連続学習のためのフィードフォワードメモリ割り当て
- Authors: Junhong Wu, Yuchen Liu, Chengqing Zong,
- Abstract要約: F-MALLOCは、フィードフォワード層が神経記憶をエミュレートし、重要な翻訳知識をカプセル化しているという最近の洞察にインスパイアされている。
フィードフォワード層を個別のメモリセルに分解し、これらのメモリを異なるタスクに割り当てる。
この新プロトコルの後に行われた実験では、BLEUスコアが高く、ほとんど忘れられないことが証明されたF-MALLOCの優れた性能を示した。
- 参考スコア(独自算出の注目度): 26.468883698819745
- License:
- Abstract: In the evolving landscape of Neural Machine Translation (NMT), the pretrain-then-finetune paradigm has yielded impressive results. However, the persistent challenge of Catastrophic Forgetting (CF) remains a hurdle. While previous work has introduced Continual Learning (CL) methods to address CF, these approaches grapple with the delicate balance between avoiding forgetting and maintaining system extensibility. To address this, we propose a CL method, named $\textbf{F-MALLOC}$ ($\textbf{F}$eed-forward $\textbf{M}$emory $\textbf{ALLOC}ation)$. F-MALLOC is inspired by recent insights highlighting that feed-forward layers emulate neural memories and encapsulate crucial translation knowledge. It decomposes feed-forward layers into discrete memory cells and allocates these memories to different tasks. By learning to allocate and safeguard these memories, our method effectively alleviates CF while ensuring robust extendability. Besides, we propose a comprehensive assessment protocol for multi-stage CL of NMT systems. Experiments conducted following this new protocol showcase the superior performance of F-MALLOC, evidenced by higher BLEU scores and almost zero forgetting.
- Abstract(参考訳): ニューラル・マシン・トランスレーション(NMT)の進化する展望の中で、プレトレイン-then-finetuneパラダイムは印象的な結果をもたらした。
しかし、カタストロフィック・フォーッティング(CF)の永続的な挑戦は依然としてハードルとなっている。
従来の研究では、CFに対処する継続学習(CL)メソッドを導入していたが、これらのアプローチは、システムの拡張性を忘れることと避けることと、システムの拡張性を維持することの微妙なバランスに支障をきたした。
これを解決するために、CL法として$\textbf{F-MALLOC}$$$\textbf{F}$eed-forward $\textbf{M}$emory $\textbf{ALLOC}ation)$を提案する。
F-MALLOCは、フィードフォワード層が神経記憶をエミュレートし、重要な翻訳知識をカプセル化するという最近の知見に着想を得ている。
フィードフォワード層を個別のメモリセルに分解し、これらのメモリを異なるタスクに割り当てる。
これらの記憶を割り当て、保護することを学ぶことで、堅牢な拡張性を確保しつつ、効果的にCFを軽減できる。
さらに,NMTシステムの多段階CLに対する包括的評価プロトコルを提案する。
この新プロトコルの後に行われた実験では、BLEUスコアが高く、ほとんど忘れられないことが証明されたF-MALLOCの優れた性能を示した。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Contractive error feedback for gradient compression [60.05809370598166]
本稿では,ConEF(Contractive error feedback)と呼ばれる通信効率のよい手法を提案する。
メモリを効率よく管理しないエラーフィードバック(EFSGD)を持つSGDとは対照的に、ConEFはコンバージェンスとメモリ使用率のスイートスポットを取得する。
我々は、画像分類、言語モデリング、機械翻訳を含む様々な学習タスクにおいて、ConEFを実証的に検証する。
論文 参考訳(メタデータ) (2023-12-13T21:54:21Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z) - Does Continual Learning Equally Forget All Parameters? [55.431048995662714]
連続学習(CL)における分散シフト(タスクやドメインシフトなど)は通常、ニューラルネットワークを壊滅的に忘れてしまう。
ニューラルネットワークのどのモジュールが、CL中のトレーニングダイナミクスを調査することによって忘れやすいかを検討する。
CL中に周期的にトリガされるFPFの1段階ごとのリプレイを完全に取り除き,わずか$k$で置き換える,より効率的でシンプルな手法を提案する。
論文 参考訳(メタデータ) (2023-04-09T04:36:24Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。