論文の概要: Transfer Learning for Sequence Generation: from Single-source to
Multi-source
- arxiv url: http://arxiv.org/abs/2105.14809v1
- Date: Mon, 31 May 2021 09:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:48:58.715437
- Title: Transfer Learning for Sequence Generation: from Single-source to
Multi-source
- Title(参考訳): シーケンス生成のための転送学習:シングルソースからマルチソースへ
- Authors: Xuancheng Huang, Jingfang Xu, Maosong Sun, and Yang Liu
- Abstract要約: そこで本研究では,2段階のファイントゥニング手法を提案する。また,MSGタスクにおいて,より優れた表現を学習するための微細エンコーダを備えた新しいMSGモデルを提案する。
提案手法は,WMT17 APE タスクと WMT14 テストセットを用いたマルチソース翻訳タスクにおいて,新たな最先端結果を実現する。
- 参考スコア(独自算出の注目度): 50.34044254589968
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-source sequence generation (MSG) is an important kind of sequence
generation tasks that takes multiple sources, including automatic post-editing,
multi-source translation, multi-document summarization, etc. As MSG tasks
suffer from the data scarcity problem and recent pretrained models have been
proven to be effective for low-resource downstream tasks, transferring
pretrained sequence-to-sequence models to MSG tasks is essential. Although
directly finetuning pretrained models on MSG tasks and concatenating multiple
sources into a single long sequence is regarded as a simple method to transfer
pretrained models to MSG tasks, we conjecture that the direct finetuning method
leads to catastrophic forgetting and solely relying on pretrained
self-attention layers to capture cross-source information is not sufficient.
Therefore, we propose a two-stage finetuning method to alleviate the
pretrain-finetune discrepancy and introduce a novel MSG model with a fine
encoder to learn better representations in MSG tasks. Experiments show that our
approach achieves new state-of-the-art results on the WMT17 APE task and
multi-source translation task using the WMT14 test set. When adapted to
document-level translation, our framework outperforms strong baselines
significantly.
- Abstract(参考訳): マルチソースシーケンス生成(MSG)は、自動後編集、複数ソース翻訳、マルチドキュメント要約など、複数のソースを取得する重要なシーケンス生成タスクである。
MSGタスクはデータ不足に悩まされており、近年の事前学習モデルは低リソース下流タスクに有効であることが証明されているため、事前学習されたシーケンス・ツー・シーケンス・モデルからMSGタスクへ転送することが不可欠である。
msgタスクで事前学習されたモデルを直接微調整し、複数のソースを単一の長いシーケンスに連結する手法は、事前学習されたモデルをmsgタスクに転送する簡単な方法と見なされるが、直接的微調整手法が壊滅的な忘れを招き、単に訓練済みの自己完結層に頼るだけでは十分ではないと推測する。
そこで本研究では,2段階のファイントゥニング手法により,事前のファイントゥン差を緩和し,さらに,ファインエンコーダを用いた新しいMSGモデルを導入し,MSGタスクの表現性を向上する。
実験の結果,本手法はWMT17 APEタスクとWMT14テストセットを用いたマルチソース翻訳タスクにおいて,新たな最先端結果が得られることがわかった。
文書レベルの翻訳に適応すると、我々のフレームワークは強力なベースラインを著しく上回ります。
関連論文リスト
- Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large
Language Models [46.92994945808424]
マルチモーダル大言語モデル(MLLM)の微調整における破滅的忘れ込みの課題
本稿では,MLLMにおける破滅的忘れの包括的分析を行い,モデルタイラーと呼ばれるポストトレーニング調整手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T11:02:05Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning [28.12788291168137]
複数のタスクを同時に並列に微調整できるマルチタスクファインチューニングフレームワーク MFTcoder を提案する。
実験により、我々のマルチタスクファインチューニングアプローチは、単一タスクにおける個々のファインチューニングと、混合タスクにおけるファインチューニングの両方より優れていることが示された。
論文 参考訳(メタデータ) (2023-11-04T02:22:40Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Foundation Model is Efficient Multimodal Multitask Model Selector [47.017463595702274]
ブルートフォースアプローチは、すべてのターゲットデータセット上のすべてのモデルを微調整し、高い計算コストをもたらす。
マルチタスクモデルセレクタ(EMMS)を提案し,多様なラベル形式を統一的な雑音ラベル埋め込みに変換する。
EMMSは、事前訓練されたモデルの転送可能性を評価するのに十分な高速で効果的で汎用的であり、マルチタスクシナリオにおける最初のモデル選択方法である。
論文 参考訳(メタデータ) (2023-08-11T17:54:44Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。