Fugu-MT 論文翻訳(概要): Continual Learning via Local Module Composition

論文の概要: Continual Learning via Local Module Composition

arxiv url: http://arxiv.org/abs/2111.07736v1
Date: Mon, 15 Nov 2021 13:34:15 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-16 14:05:51.833651
Title: Continual Learning via Local Module Composition
Title（参考訳）: 局所モジュール構成による連続学習
Authors: Oleksiy Ostapenko, Pau Rodriguez, Massimo Caccia, Laurent Charlin
Abstract要約: ローカルモジュール合成 (LMC) は、モジュール型連続学習のアプローチである。 LMCは各モジュールに、モジュールの入力に対する関連性を推定するローカルな構造コンポーネントを提供する。
参考スコア（独自算出の注目度）: 11.380264053565082
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modularity is a compelling solution to continual learning (CL), the problem of modeling sequences of related tasks. Learning and then composing modules to solve different tasks provides an abstraction to address the principal challenges of CL including catastrophic forgetting, backward and forward transfer across tasks, and sub-linear model growth. We introduce local module composition (LMC), an approach to modular CL where each module is provided a local structural component that estimates a module's relevance to the input. Dynamic module composition is performed layer-wise based on local relevance scores. We demonstrate that agnosticity to task identities (IDs) arises from (local) structural learning that is module-specific as opposed to the task- and/or model-specific as in previous works, making LMC applicable to more CL settings compared to previous works. In addition, LMC also tracks statistics about the input distribution and adds new modules when outlier samples are detected. In the first set of experiments, LMC performs favorably compared to existing methods on the recent Continual Transfer-learning Benchmark without requiring task identities. In another study, we show that the locality of structural learning allows LMC to interpolate to related but unseen tasks (OOD), as well as to compose modular networks trained independently on different task sequences into a third modular network without any fine-tuning. Finally, in search for limitations of LMC we study it on more challenging sequences of 30 and 100 tasks, demonstrating that local module selection becomes much more challenging in presence of a large number of candidate modules. In this setting best performing LMC spawns much fewer modules compared to an oracle based baseline, however, it reaches a lower overall accuracy. The codebase is available under https://github.com/oleksost/LMC.
Abstract（参考訳）: モジュール性は、関連するタスクのシーケンスをモデル化する問題である継続学習(CL)の魅力的なソリューションである。異なるタスクを解くためのモジュールの学習と構成は、破滅的な忘れ込み、タスク間の後方および前方移動、サブ線形モデルの成長など、CLの主要な課題に対処するための抽象化を提供する。我々は,各モジュールが入力に対するモジュールの関連性を推定する局所構造コンポーネントを提供するモジュール化clへのアプローチであるlocal module composition (lmc)を導入する。動的モジュール構成は、局所的関連性スコアに基づいて階層的に行われる。タスクid(task identity, ids)に対する不可知性は,従来の作業と異なりモジュール固有である(ローカルな)構造学習から生じていることを実証し,lmcを以前の作業よりもcl設定に適応させる。さらに、LCCは入力分布に関する統計も追跡し、外れ値サンプルが検出されたときに新しいモジュールを追加する。最初の実験では、lmcはタスクのアイデンティティを必要とせず、最近の連続的トランスファーラーニングベンチマークの既存の手法と比較した。別の研究では、構造学習の局所性により、LCCは関連するが目に見えないタスク(OOD)に補間できるだけでなく、異なるタスクシーケンスで独立に訓練されたモジュールネットワークを微調整なしで第3のモジュールネットワークに構成できることを示した。最後に, LMC の限界探索において, 30 タスクと 100 タスクのより困難なシーケンスについて検討し, 多数の候補モジュールが存在する場合, 局所的なモジュール選択がより困難になることを示す。この設定で最高のパフォーマンスのlmcは、oracleベースのベースラインよりもはるかに少ないモジュールを生み出すが、全体的な精度は低い。コードベースはhttps://github.com/oleksost/LMCで公開されている。

関連論文リスト

GenKnowSub: Improving Modularity and Reusability of LLMs through General Knowledge Subtraction [5.2078428584067815]
本稿では,一般的な知識とタスク固有の適応の絡み合いを解消するモジュラーフレームワークを提案する。各タスク固有モジュールからこの一般知識成分を抽出することにより、タスク関連情報にのみ焦点をあてた残余モジュールを得る。 Phi-3モデルと標準Arrowをベースラインとして研究した結果,一般知識を用いて一貫した性能向上が得られることがわかった。
論文参考訳（メタデータ） (2025-05-16T07:23:59Z)
Configurable Foundation Models: Building LLMs from a Modular Perspective [115.63847606634268]
LLMを多数の機能モジュールに分解する傾向が高まり、複雑なタスクに取り組むためにモジュールの一部とモジュールの動的アセンブリを推論することができる。各機能モジュールを表すブロックという用語を造語し、モジュール化された構造をカスタマイズ可能な基礎モデルとして定義する。検索とルーティング,マージ,更新,成長という,レンガ指向の4つの操作を提示する。 FFN層はニューロンの機能的特殊化と機能的ニューロン分割を伴うモジュラーパターンに従うことが判明した。
論文参考訳（メタデータ） (2024-09-04T17:01:02Z)
Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models [56.93608812478369]
本稿では,新たなPEFTモジュールのトレーニングを分離し,タスクの専門化を保証する手法であるL2Rを提案する。その後、L2Rは学習したモジュールを学習し、以前見たタスクの例を含む小さなメモリを利用するルータのネットワークをトレーニングする。その結果,L2RはPEFTモジュールの効率的な構成を提供し,他の手法と比較して一般化と性能が向上した。
論文参考訳（メタデータ） (2024-08-16T23:57:29Z)
SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models [71.78800549517298]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文参考訳（メタデータ） (2024-01-16T11:45:03Z)
CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules [51.82044734879657]
我々は,自己修正の連鎖を通じてモジュール化されたコード生成を誘発する,新しい推論フレームワークであるCodeChainを提案する。 CodeChainは、生成したソリューションのモジュール性と正確性の両方を大幅に向上させ、APPSで35%、CodeContestsで76%の相対パス@1の改善を実現しています。
論文参考訳（メタデータ） (2023-10-13T10:17:48Z)
A Probabilistic Framework for Modular Continual Learning [27.398496741452554]
モジュール構成の大規模かつ離散的な空間を探索するモジュール型連続学習フレームワーク PICLE を開発した。 PICLEは,大規模検索空間に拡張しながら知覚的,少数ショット,潜時移動を実現する最初のモジュール型CLアルゴリズムである。
論文参考訳（メタデータ） (2023-06-11T00:06:57Z)
ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:57Z)
Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文参考訳（メタデータ） (2023-02-22T18:11:25Z)
Efficient Continual Learning with Modular Networks and Task-Driven Priors [31.03712334701338]
継続学習(CL)における既存の文献は、破滅的な忘れを克服することに焦点を当てている。新しいモジュールアーキテクチャを導入し、モジュールは特定のタスクを実行するために構成できる原子スキルを表す。学習アルゴリズムは,モジュールを結合するあらゆる方法の指数関数探索空間上でタスク駆動前処理を活用し,タスクの長いストリームでの効率的な学習を可能にする。
論文参考訳（メタデータ） (2020-12-23T12:42:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。