Fugu-MT 論文翻訳(概要): Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models

論文の概要: Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models

arxiv url: http://arxiv.org/abs/2408.09053v2
Date: Wed, 30 Oct 2024 01:38:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 07:07:05.263064
Title: Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models
Title（参考訳）: 言語モデルを用いた連続学習における動的適応合成のための経路学習
Authors: Vladimir Araujo, Marie-Francine Moens, Tinne Tuytelaars,
Abstract要約: 本稿では,新たなPEFTモジュールのトレーニングを分離し,タスクの専門化を保証する手法であるL2Rを提案する。その後、L2Rは学習したモジュールを学習し、以前見たタスクの例を含む小さなメモリを利用するルータのネットワークをトレーニングする。その結果,L2RはPEFTモジュールの効率的な構成を提供し,他の手法と比較して一般化と性能が向上した。
参考スコア（独自算出の注目度）: 56.93608812478369
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Parameter-efficient fine-tuning (PEFT) methods are increasingly used with pre-trained language models (PLMs) for continual learning (CL). These methods typically involve training a PEFT module for each new task and employing similarity-based selection to route modules during inference. However, they face two major limitations: 1) interference during module training with already learned modules and 2) suboptimal routing when composing modules. In this paper, we present L2R, a method that isolates the training of new PEFT modules to ensure their task specialization. L2R then learns to compose the learned modules by training a network of routers that leverages a small memory containing examples of previously seen tasks. We evaluate our method in two CL setups using various benchmarks. Our results demonstrate that L2R provides an effective composition of PEFT modules, leading to improved generalization and performance compared to other methods.
Abstract（参考訳）: パラメータ効率のよい微細チューニング(PEFT)手法は、継続学習(CL)のための事前学習言語モデル(PLM)でますます使われている。これらの手法は通常、新しいタスクごとにPEFTモジュールをトレーニングし、推論中にモジュールをルーティングするために類似性に基づいた選択を採用する。しかし、それらは2つの大きな制限に直面している。 1)既に学んだモジュールによるモジュールトレーニング中の干渉 2)モジュールを構成する際の最適部分ルーティング。本稿では,新しいPEFTモジュールのトレーニングを分離し,タスクの専門化を保証する手法であるL2Rを提案する。その後、L2Rは学習したモジュールを学習し、以前見たタスクの例を含む小さなメモリを利用するルータのネットワークをトレーニングする。各種ベンチマークを用いて2つのCLセットアップで本手法の評価を行った。その結果,L2RはPEFTモジュールの効率的な構成を提供し,他の手法と比較して一般化と性能が向上した。

関連論文リスト

The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Learning to Chain Operations by Routing Information Through a Global Workspace [3.1614158472531435]
本稿では,グローバルワークスペース理論(Global Workspace Theory)にインスパイアされたモデルを提案する。モデルの性能を単純な追加タスクで評価し、そこでは2つの加算をまとめる必要がある。本研究は,深層学習の推論能力を高めるため,グローバルワークスペース理論に触発されたアーキテクチャの可能性を強調した。
論文参考訳（メタデータ） (2025-02-28T15:30:55Z)
Towards Modular LLMs by Building and Reusing a Library of LoRAs [64.43376695346538]
マルチタスクデータに対して最適なアダプタライブラリを構築する方法について検討する。モデルベースクラスタリング(MBC)を導入し,パラメータの類似性に基づいてタスクをグループ化する手法を提案する。ライブラリを再使用するために,最も関連性の高いアダプタの動的選択を可能にする新しいゼロショットルーティング機構であるArrowを提案する。
論文参考訳（メタデータ） (2024-05-18T03:02:23Z)
Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文参考訳（メタデータ） (2024-03-27T17:50:00Z)
Assessing the Portability of Parameter Matrices Trained by Parameter-Efficient Finetuning Methods [6.653947064461629]
タスク固有の知識をあるモデルから別のモデルにエンコードする機能モジュール全体を移植する。我々は,パラメータ効率の微調整(PEFT)技術で訓練されたモジュールの可搬性をテストするために,1,440のトレーニング/テストランからなる研究を設計した。移植したモジュールは2つの代替品よりはるかに優れているが,4つのPEFT技術の間には興味深い性能差がある。
論文参考訳（メタデータ） (2024-01-25T15:11:07Z)
SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models [71.78800549517298]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文参考訳（メタデータ） (2024-01-16T11:45:03Z)
Composing Parameter-Efficient Modules with Arithmetic Operations [20.119291936493788]
重み空間における線形算術演算によりパラメータ効率のよい加群を構成することを提案する。このアプローチでは、Emphnoの追加トレーニングが必要で、高度にフレキシブルなモジュール構成を可能にします。 LLaMAをベースとした最新の命令調整型大規模言語モデルであるAlpaca-LoRAをデトックス化するアプローチを拡張した。
論文参考訳（メタデータ） (2023-06-26T17:33:21Z)
ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:57Z)
Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文参考訳（メタデータ） (2023-02-22T18:11:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。