論文の概要: Inducing Generalization across Languages and Tasks using Featurized Low-Rank Mixtures
- arxiv url: http://arxiv.org/abs/2402.17934v2
- Date: Thu, 1 Aug 2024 05:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-02 14:24:21.604608
- Title: Inducing Generalization across Languages and Tasks using Featurized Low-Rank Mixtures
- Title(参考訳): 飽和低ランクミキサーを用いた言語・タスク間の一般化の誘導
- Authors: Chu-Cheng Lin, Xinyi Wang, Jonathan H. Clark, Han Lu, Yun Zhu, Chenxi Whitehouse, Hongkun Yu,
- Abstract要約: Featurized Low-rank Mixtures (FLix) はマルチタスク多言語適応のための新しいPEFT法である。
FLixは、データセットの言語やタスクなど、それぞれのユニークなデータセット機能と、独自の低ランクの重み更新パラメータを関連付ける。
実験の結果,FLixは教師付き学習とゼロショット設定の両方において,様々なタスクに対して大幅な改善をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 44.04239492332651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting pretrained large language models (LLMs) to various downstream tasks in tens or hundreds of human languages is computationally expensive. Parameter-efficient fine-tuning (PEFT) significantly reduces the adaptation cost, by tuning only a small amount of parameters. However, common PEFT methods LoRA (Hu et al., 2022) suffer from suboptimal performance on diverse dataset mixtures, due to aggressive parameter tying and negative interference among different datasets. In this work, we propose Featurized Low-rank Mixtures (FLix), a novel PEFT method designed for effective multitask multilingual adaptation. FLix associates each unique dataset feature, such as the dataset's language or task, with its own low-rank weight update parameters. By composing feature-specific parameters for each dataset, FLix can accommodate diverse dataset mixtures and generalize better to unseen datasets. Our experiments show that FLix leads to significant improvements over a variety of tasks for both supervised learning and zero-shot settings with gains of up to $14.2$ inexact match points in zero-shot semantic parsing.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)を、数十から数百の人間の言語で様々な下流タスクに適応させることは、計算コストがかかる。
パラメータ効率のよい微調整(PEFT)は、少数のパラメータのみをチューニングすることで、適応コストを大幅に削減する。
しかし、共通のPEFT法であるLoRA(Hu et al , 2022)は、異なるデータセット間のアグレッシブパラメータタイリングと負の干渉により、多様なデータセットの混合に対して最適以下の性能を損なう。
本研究では,マルチタスク多言語適応のための新しいPEFT法であるFeaturized Low-rank Mixtures (FLix)を提案する。
FLixは、データセットの言語やタスクなど、それぞれのユニークなデータセット機能と、独自の低ランクの重み更新パラメータを関連付ける。
各データセットに特有のパラメータを構成することで、FLixは多様なデータセットの混合を許容し、目に見えないデータセットをより一般化することができる。
実験により、FLixは教師付き学習とゼロショット設定の両方において、ゼロショットセマンティック解析において最大14.2ドルの不正確なマッチングポイントを得られる様々なタスクに対して、大幅な改善をもたらすことが示された。
関連論文リスト
- SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe [30.03925858123481]
従来のNTPパラダイムを超えて,命令チューニング性能を高める新しいレシピであるSFTMixを提案する。
トレーニング力学に基づいて、異なる信頼度を持つ例は、指導訓練過程において異なる役割を演じるべきであると論じる。
このアプローチにより、SFTMixは、幅広いインストラクションフォローとヘルスケアドメイン固有のSFTタスクにおいて、NTPを大幅に上回ることができる。
論文 参考訳(メタデータ) (2024-10-07T17:52:21Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。
異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。
実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-12T10:33:57Z) - AdaMix: Mixture-of-Adaptations for Parameter-efficient Model Tuning [112.97430455461097]
本稿では,各トランスフォーマー層に導入される適応モジュールの混合を調整し,PLMの重みの大半を凍結させながら,汎用PEFT法を提案する。
PLMパラメータの0.1-0.2%だけをチューニングすることにより、AdaMix は NLU および NLG のタスクに対して SOTA パラメータ効率の良い微調整およびフルモデル微調整より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-31T16:23:36Z) - Attentional Mixtures of Soft Prompt Tuning for Parameter-efficient
Multi-task Knowledge Sharing [53.399742232323895]
ATTEMPTは、新しいモジュラー、マルチタスク、パラメータ効率の言語モデル(LM)チューニングアプローチである。
異なるタスク間で伝達される知識をソフトプロンプトの混合によって組み合わせ、元のLMをそのまま維持する。
パラメータ効率(例えば、微調整よりも1,600倍少ないパラメータを更新)であり、マルチタスク学習と柔軟な拡張を可能にする。
論文 参考訳(メタデータ) (2022-05-24T10:48:33Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。