論文の概要: Multitask Multilingual Model Adaptation with Featurized Low-Rank
Mixtures
- arxiv url: http://arxiv.org/abs/2402.17934v1
- Date: Tue, 27 Feb 2024 23:12:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 16:55:42.496558
- Title: Multitask Multilingual Model Adaptation with Featurized Low-Rank
Mixtures
- Title(参考訳): 飽和低ランク混合を用いたマルチタスク多言語モデル適応
- Authors: Chu-Cheng Lin and Xinyi Wang and Jonathan H. Clark and Han Lu and Yun
Zhu and Chenxi Whitehouse and Hongkun Yu
- Abstract要約: Featurized Low-rank Mixtures (FLix) はマルチタスク多言語チューニングのための新しいPEFT手法である。
FLixは、データセットの言語やタスクなど、それぞれのユニークなデータセット機能と、独自の低ランクの重み更新パラメータを関連付ける。
実験の結果,FLixは教師付き学習とゼロショット設定の両方において,様々なタスクに対して大幅な改善をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 46.250932555711486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting pretrained large language models (LLMs) to various downstream tasks
in tens or hundreds of human languages is computationally expensive.
Parameter-efficient fine-tuning (PEFT) significantly reduces the adaptation
cost, by tuning only a small amount of parameters. However, directly applying
PEFT methods such as LoRA (Hu et al., 2022) on diverse dataset mixtures could
lead to suboptimal performance due to limited parameter capacity and negative
interference among different datasets. In this work, we propose Featurized
Low-rank Mixtures (FLix), a novel PEFT method designed for effective multitask
multilingual tuning. FLix associates each unique dataset feature, such as the
dataset's language or task, with its own low-rank weight update parameters. By
composing feature-specific parameters for each dataset, FLix can accommodate
diverse dataset mixtures and generalize better to unseen datasets. Our
experiments show that FLix leads to significant improvements over a variety of
tasks for both supervised learning and zero-shot settings using different
training data mixtures.
- Abstract(参考訳): 事前訓練された大規模言語モデル(llm)を数十から数百の人間の言語で様々な下流タスクに適応させるのは計算コストがかかる。
パラメータ効率のよい微調整(PEFT)は、少数のパラメータのみをチューニングすることで、適応コストを大幅に削減する。
しかし,LoRA (Hu et al., 2022) などのPEFT法を多種多様なデータセットに直接適用すると,パラメータ容量の制限やデータセット間の負の干渉による最適以下の性能が向上する可能性がある。
本研究では,マルチタスク多言語チューニングのための新しいPEFT手法であるFeaturized Low-rank Mixtures (FLix)を提案する。
FLixは、データセットの言語やタスクなど、それぞれのユニークなデータセット機能と、独自の低ランクの重み更新パラメータを関連付ける。
各データセットに特有のパラメータを構成することで、FLixは多様なデータセットの混合を許容し、目に見えないデータセットをより一般化することができる。
実験の結果,FLix は教師付き学習とゼロショット設定の両方において,異なる学習データ混合を用いた様々なタスクに対して,大幅な改善をもたらすことがわかった。
関連論文リスト
- Context-PEFT: Efficient Multi-Modal, Multi-Task Fine-Tuning [12.648711621637663]
この論文は小説を紹介します。
COCO-Efficient Fine-Tuning (PEFT) framework for multi-modal, multi-task transfer learning with pre-trained language model。
トークンのドメインに基づいて異なる適応パラメータ群を学習するContext-PEFTを提案する。
提案手法はキャプションタスクで評価され、類似したデータ制約下での完全な微調整よりも優れる。
論文 参考訳(メタデータ) (2023-12-14T13:00:24Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with
Communication Cost under 18 Kilobytes [56.67419203687434]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。
異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。
実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-12T10:33:57Z) - Asynchronous Multi-Model Dynamic Federated Learning over Wireless
Networks: Theory, Modeling, and Optimization [20.741776617129208]
分散機械学習(ML)の鍵となる技術として、フェデレートラーニング(FL)が登場した。
まず、システムパラメータが学習性能に与える影響を捉えるために、長方形のスケジューリングステップと関数を定式化する。
我々の分析は、デバイストレーニング変数と非同期スケジューリング決定の協調的影響に光を当てている。
論文 参考訳(メタデータ) (2023-05-22T21:39:38Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - AdaMix: Mixture-of-Adaptations for Parameter-efficient Model Tuning [112.97430455461097]
本稿では,各トランスフォーマー層に導入される適応モジュールの混合を調整し,PLMの重みの大半を凍結させながら,汎用PEFT法を提案する。
PLMパラメータの0.1-0.2%だけをチューニングすることにより、AdaMix は NLU および NLG のタスクに対して SOTA パラメータ効率の良い微調整およびフルモデル微調整より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-31T16:23:36Z) - Attentional Mixtures of Soft Prompt Tuning for Parameter-efficient
Multi-task Knowledge Sharing [53.399742232323895]
ATTEMPTは、新しいモジュラー、マルチタスク、パラメータ効率の言語モデル(LM)チューニングアプローチである。
異なるタスク間で伝達される知識をソフトプロンプトの混合によって組み合わせ、元のLMをそのまま維持する。
パラメータ効率(例えば、微調整よりも1,600倍少ないパラメータを更新)であり、マルチタスク学習と柔軟な拡張を可能にする。
論文 参考訳(メタデータ) (2022-05-24T10:48:33Z) - UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文 参考訳(メタデータ) (2021-10-14T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。