Fugu-MT 論文翻訳(概要): Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models

論文の概要: Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models

arxiv url: http://arxiv.org/abs/2408.09053v1
Date: Fri, 16 Aug 2024 23:57:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 22:56:40.574964
Title: Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models
Title（参考訳）: 言語モデルを用いた連続学習における動的適応合成のための経路学習
Authors: Vladimir Araujo, Marie-Francine Moens, Tinne Tuytelaars,
Abstract要約: タスク専門化のためのPEFTモジュールのトレーニングを分離する手法を提案する。そして、評価の前に、小さなメモリからサンプルするルータをトレーニングすることで、以前に学習したモジュールを構成することを学習する。提案手法はPEFTモジュールのより優れた構成を提供することで,従来の手法と比較して一般化と性能が向上することを示す。
参考スコア（独自算出の注目度）: 56.93608812478369
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Parameter-efficient fine-tuning (PEFT) methods are increasingly used with pre-trained language models (PLMs) for continual learning (CL). These methods involve training a PEFT module for each new task and using similarity-based selection to route modules during inference. However, they face two major limitations: 1) interference with already learned modules and 2) suboptimal routing when composing modules. In this paper, we introduce a method that isolates the training of PEFT modules for task specialization. Then, before evaluation, it learns to compose the previously learned modules by training a router that leverages samples from a small memory. We evaluate our method in two CL setups using several benchmarks. Our results show that our method provides a better composition of PEFT modules, leading to better generalization and performance compared to previous methods.
Abstract（参考訳）: パラメータ効率のよい微細チューニング(PEFT)手法は、継続学習(CL)のための事前学習言語モデル(PLM)でますます使われている。これらの方法は、新しいタスクごとにPEFTモジュールをトレーニングし、類似性に基づいた選択を使用して、推論中にモジュールをルーティングする。しかし、それらは2つの大きな制限に直面している。 1)既に学んだモジュールとの干渉 2)モジュールを構成する際の最適部分ルーティング。本稿では,タスク専門化のためのPEFTモジュールのトレーニングを分離する手法を提案する。そして、評価の前に、小さなメモリからのサンプルを利用するルータをトレーニングすることで、以前に学習したモジュールを構成することを学習する。提案手法を複数のベンチマークを用いて2つのCLセットアップで評価する。提案手法はPEFTモジュールのより優れた構成を提供し,従来の手法と比較して一般化と性能が向上することを示す。

関連論文リスト

The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Learning to Chain Operations by Routing Information Through a Global Workspace [3.1614158472531435]
本稿では,グローバルワークスペース理論(Global Workspace Theory)にインスパイアされたモデルを提案する。モデルの性能を単純な追加タスクで評価し、そこでは2つの加算をまとめる必要がある。本研究は,深層学習の推論能力を高めるため,グローバルワークスペース理論に触発されたアーキテクチャの可能性を強調した。
論文参考訳（メタデータ） (2025-02-28T15:30:55Z)
Towards Modular LLMs by Building and Reusing a Library of LoRAs [64.43376695346538]
マルチタスクデータに対して最適なアダプタライブラリを構築する方法について検討する。モデルベースクラスタリング(MBC)を導入し,パラメータの類似性に基づいてタスクをグループ化する手法を提案する。ライブラリを再使用するために,最も関連性の高いアダプタの動的選択を可能にする新しいゼロショットルーティング機構であるArrowを提案する。
論文参考訳（メタデータ） (2024-05-18T03:02:23Z)
Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文参考訳（メタデータ） (2024-03-27T17:50:00Z)
Assessing the Portability of Parameter Matrices Trained by Parameter-Efficient Finetuning Methods [6.653947064461629]
タスク固有の知識をあるモデルから別のモデルにエンコードする機能モジュール全体を移植する。我々は,パラメータ効率の微調整(PEFT)技術で訓練されたモジュールの可搬性をテストするために,1,440のトレーニング/テストランからなる研究を設計した。移植したモジュールは2つの代替品よりはるかに優れているが,4つのPEFT技術の間には興味深い性能差がある。
論文参考訳（メタデータ） (2024-01-25T15:11:07Z)
SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models [71.78800549517298]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文参考訳（メタデータ） (2024-01-16T11:45:03Z)
Composing Parameter-Efficient Modules with Arithmetic Operations [20.119291936493788]
重み空間における線形算術演算によりパラメータ効率のよい加群を構成することを提案する。このアプローチでは、Emphnoの追加トレーニングが必要で、高度にフレキシブルなモジュール構成を可能にします。 LLaMAをベースとした最新の命令調整型大規模言語モデルであるAlpaca-LoRAをデトックス化するアプローチを拡張した。
論文参考訳（メタデータ） (2023-06-26T17:33:21Z)
ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:57Z)
Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文参考訳（メタデータ） (2023-02-22T18:11:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。