Fugu-MT 論文翻訳(概要): Composing Parameter-Efficient Modules with Arithmetic Operations

論文の概要: Composing Parameter-Efficient Modules with Arithmetic Operations

arxiv url: http://arxiv.org/abs/2306.14870v2
Date: Sat, 9 Dec 2023 02:46:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 02:23:52.007854
Title: Composing Parameter-Efficient Modules with Arithmetic Operations
Title（参考訳）: 算術演算を用いたパラメータ有効モジュールの構成
Authors: Jinghan Zhang, Shiqi Chen, Junteng Liu, Junxian He
Abstract要約: 重み空間における線形算術演算によりパラメータ効率のよい加群を構成することを提案する。このアプローチでは、Emphnoの追加トレーニングが必要で、高度にフレキシブルなモジュール構成を可能にします。 LLaMAをベースとした最新の命令調整型大規模言語モデルであるAlpaca-LoRAをデトックス化するアプローチを拡張した。
参考スコア（独自算出の注目度）: 20.119291936493788
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As an efficient alternative to conventional full finetuning, parameter-efficient finetuning (PEFT) is becoming the prevailing method to adapt pretrained language models. In PEFT, a lightweight module is learned on each dataset while the underlying pretrained language model remains unchanged, resulting in multiple compact modules representing diverse skills when applied to various domains and tasks. In this paper, we propose to compose these parameter-efficient modules through linear arithmetic operations in the weight space, thereby integrating different module capabilities. Specifically, we first define addition and negation operators for the module, and then further compose these two basic operators to perform flexible arithmetic. Our approach requires \emph{no additional training} and enables highly flexible module composition. We apply different arithmetic operations to compose the parameter-efficient modules for (1) distribution generalization, (2) multi-tasking, (3) unlearning, and (4) domain transfer. Additionally, we extend our approach to detoxify Alpaca-LoRA, the latest instruction-tuned large language model based on LLaMA. Empirical results demonstrate that our approach produces new and effective parameter-efficient modules that significantly outperform existing ones across all settings.
Abstract（参考訳）: 従来の完全微調整の代替として、パラメータ効率のよい微調整(PEFT)が、事前訓練された言語モデルに適応するための一般的な方法になりつつある。 peftでは、基礎となる事前学習された言語モデルが変わらず、軽量モジュールが各データセットで学習され、さまざまなドメインやタスクに適用されると、さまざまなスキルを表す複数のコンパクトモジュールが生成される。本稿では,重み空間における線形算術演算により,これらのパラメータ効率のよいモジュールを構成することを提案する。具体的には、まず加法演算子と否定演算子を定義し、さらに2つの基本演算子を構成してフレキシブル演算を行う。我々のアプローチでは 'emph{no additional training} を必要とし、高度に柔軟なモジュール構成を可能にします。 1) 分散一般化, (2) マルチタスク, (3) 未学習, (4) ドメイン転送のためのパラメータ効率のよいモジュールを構成するために, 異なる算術演算を適用する。さらに、LLaMAに基づく最新の命令調整型大規模言語モデルであるAlpaca-LoRAをデトックス化するアプローチを拡張した。実験により,本手法は,既存のモジュールを全設定で大幅に上回る,新しい,効果的なパラメータ効率のモジュールを生成することを示す。

関連論文リスト

The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Learning to Chain Operations by Routing Information Through a Global Workspace [3.1614158472531435]
本稿では,グローバルワークスペース理論(Global Workspace Theory)にインスパイアされたモデルを提案する。モデルの性能を単純な追加タスクで評価し、そこでは2つの加算をまとめる必要がある。本研究は,深層学習の推論能力を高めるため,グローバルワークスペース理論に触発されたアーキテクチャの可能性を強調した。
論文参考訳（メタデータ） (2025-02-28T15:30:55Z)
Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。 WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文参考訳（メタデータ） (2024-10-29T07:16:31Z)
Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models [56.93608812478369]
本稿では,新たなPEFTモジュールのトレーニングを分離し,タスクの専門化を保証する手法であるL2Rを提案する。その後、L2Rは学習したモジュールを学習し、以前見たタスクの例を含む小さなメモリを利用するルータのネットワークをトレーニングする。その結果,L2RはPEFTモジュールの効率的な構成を提供し,他の手法と比較して一般化と性能が向上した。
論文参考訳（メタデータ） (2024-08-16T23:57:29Z)
Mixture of Experts Using Tensor Products [44.816454454687]
マルチタスク学習では、従来の手法では複数のタスクでモデルを同時にトレーニングする。モジュール型言語モデルが肯定的伝達と体系的一般化を促進できるかどうかを検討する。具体的には、パラメータ効率とニュアンス付きルーティング手法のバランスをとる新しいモジュラー言語モデル(textttTensorPoly)を提案する。
論文参考訳（メタデータ） (2024-05-26T19:25:08Z)
Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文参考訳（メタデータ） (2024-05-13T07:46:48Z)
Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文参考訳（メタデータ） (2024-03-27T17:50:00Z)
ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:57Z)
UniPELT: A Unified Framework for Parameter-Efficient Language Model Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文参考訳（メタデータ） (2021-10-14T17:40:08Z)
GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文参考訳（メタデータ） (2021-06-10T15:41:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。