Fugu-MT 論文翻訳(概要): Exploring Versatile Generative Language Model Via Parameter-Efficient Transfer Learning

論文の概要: Exploring Versatile Generative Language Model Via Parameter-Efficient Transfer Learning

arxiv url: http://arxiv.org/abs/2004.03829v2
Date: Mon, 21 Sep 2020 05:09:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-15 08:45:39.997482
Title: Exploring Versatile Generative Language Model Via Parameter-Efficient Transfer Learning
Title（参考訳）: パラメーター効率の高い転送学習による多用途言語モデルの検討
Authors: Zhaojiang Lin, Andrea Madotto, Pascale Fung
Abstract要約: 本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。 5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
参考スコア（独自算出の注目度）: 70.81910984985683
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-tuning pre-trained generative language models to down-stream language generation tasks has shown promising results. However, this comes with the cost of having a single, large model for each task, which is not ideal in low-memory/power scenarios (e.g., mobile). In this paper, we propose an effective way to fine-tune multiple down-stream generation tasks simultaneously using a single, large pre-trained model. The experiments on five diverse language generation tasks show that by just using an additional 2-3% parameters for each task, our model can maintain or even improve the performance of fine-tuning the whole model.
Abstract（参考訳）: ダウンストリーム言語生成タスクへの微調整事前学習型生成言語モデルにより,有望な結果が得られた。しかしこれは、低メモリ/パワーのシナリオ(モバイルなど)では理想的ではないタスクごとに1つの大きなモデルを持つことのコストが伴う。本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する方法を提案する。 5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。

関連論文リスト

Evolution without Large Models: Training Language Model with Task Principles [52.44569608690695]
言語モデルの一般的なトレーニングアプローチは、人間が提供したデータセットを拡張するために、大規模な言語モデルを使用することである。この方法は、広範囲な人的データアノテーションの必要性を排除し、トレーニングコストを大幅に削減する。しかし、データ拡張時の二酸化炭素排出量の増加や、データ漏洩のリスクなど、依然として課題に直面している。
論文参考訳（メタデータ） (2025-07-08T13:52:45Z)
Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文参考訳（メタデータ） (2023-10-25T03:40:50Z)
One Adapter for All Programming Languages? Adapter Tuning for Code Search and Summarization [27.27985393610581]
最近のUniXcoderとCodeT5では,多言語微調整により性能が低下することがわかった。多言語モデルにおける致命的な忘れの問題を軽減するため、事前訓練されたモデルパラメータを全て修正し、パラメータ効率の高い構造アダプタを挿入し、微調整する。 3つの探索課題に関する実験により、アダプタチューニングはフルモデルの微調整を著しく上回り、破滅的な忘れを効果的に克服することを示した。
論文参考訳（メタデータ） (2023-03-28T08:49:54Z)
Multi Task Learning For Zero Shot Performance Prediction of Multilingual Models [12.759281077118567]
多言語トランスフォーマーに基づく言語モデルは、言語間のゼロショット転送において驚くほど効果的であることが観察されている。我々は,タスク上のゼロショット性能をマルチタスク学習問題としてモデル化することにより,タスク上のゼロショット性能を予測するための既存の手法を構築した。
論文参考訳（メタデータ） (2022-05-12T14:47:03Z)
A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-04-11T18:31:53Z)
Probing Structured Pruning on Multilingual Pre-trained Models: Settings, Algorithms, and Efficiency [62.0887259003594]
本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。 9つの下流タスクの実験は、いくつかの反直観的な現象を示している。モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
論文参考訳（メタデータ） (2022-04-06T06:29:52Z)
PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文参考訳（メタデータ） (2022-04-05T16:11:45Z)
Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文参考訳（メタデータ） (2021-10-15T17:08:57Z)
WARP: Word-level Adversarial ReProgramming [13.08689221166729]
多くのアプリケーションでは、多くのパラメータを複数のタスクで共有できるように、より小さなパラメータセットをチューニングすることが望ましい。自動プロンプト生成に関する初期の研究を拡張した逆転プログラミングに基づく代替アプローチを提案する。提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-01-01T00:41:03Z)
Modelling Latent Skills for Multitask Language Generation [15.126163032403811]
マルチタスク条件言語生成のための生成モデルを提案する。我々の指導的仮説は、共通の潜在スキルの集合が、多くの異なる言語生成タスクの根底にあるというものである。このタスク埋め込み空間を潜在変数列列列モデルにおける潜在変数としてインスタンス化する。
論文参考訳（メタデータ） (2020-02-21T20:39:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。