Fugu-MT 論文翻訳(概要): Lifelong Learning with Searchable Extension Units

論文の概要: Lifelong Learning with Searchable Extension Units

arxiv url: http://arxiv.org/abs/2003.08559v1
Date: Thu, 19 Mar 2020 03:45:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-22 03:30:02.246958
Title: Lifelong Learning with Searchable Extension Units
Title（参考訳）: 検索可能な拡張ユニットによる生涯学習
Authors: Wenjin Wang, Yunqing Hu, Yin Zhang
Abstract要約: 本稿では,検索可能拡張ユニット(SEU)という生涯学習フレームワークを提案する。これは、事前に定義されたオリジナルのモデルの必要性を断ち切り、異なるタスクのための特定の拡張ユニットを検索する。我々のアプローチは、破滅的な忘れることなく、はるかにコンパクトなモデルを得ることができる。
参考スコア（独自算出の注目度）: 21.17631355880764
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Lifelong learning remains an open problem. One of its main difficulties is catastrophic forgetting. Many dynamic expansion approaches have been proposed to address this problem, but they all use homogeneous models of predefined structure for all tasks. The common original model and expansion structures ignore the requirement of different model structures on different tasks, which leads to a less compact model for multiple tasks and causes the model size to increase rapidly as the number of tasks increases. Moreover, they can not perform best on all tasks. To solve those problems, in this paper, we propose a new lifelong learning framework named Searchable Extension Units (SEU) by introducing Neural Architecture Search into lifelong learning, which breaks down the need for a predefined original model and searches for specific extension units for different tasks, without compromising the performance of the model on different tasks. Our approach can obtain a much more compact model without catastrophic forgetting. The experimental results on the PMNIST, the split CIFAR10 dataset, the split CIFAR100 dataset, and the Mixture dataset empirically prove that our method can achieve higher accuracy with much smaller model, whose size is about 25-33 percentage of that of the state-of-the-art methods.
Abstract（参考訳）: 生涯学習は依然としてオープンな問題である。最大の難題は破滅的な忘れ事である。この問題に対処するために多くの動的拡張アプローチが提案されているが、それらはすべてすべてのタスクに対して事前定義された構造の均一なモデルを使用する。共通のオリジナルモデルと拡張構造は、異なるタスクに対する異なるモデル構造の必要性を無視し、複数のタスクに対するよりコンパクトなモデルをもたらし、タスクの数が増えるにつれてモデルサイズが急速に増加する。さらに、すべてのタスクでベストを尽くすことはできない。そこで本稿では,ニューラルネットワークを生涯学習に導入することにより,モデルの性能を損なうことなく,事前定義されたオリジナルモデルの必要性を解消し,異なるタスクに対する特定の拡張ユニットを探索する,SEU(Searchable Extension Units)と呼ばれる新しい生涯学習フレームワークを提案する。我々のアプローチは、破滅的な忘れることなく、はるかにコンパクトなモデルを得ることができる。 pmnist,スプリットcifar10データセット,スプリットcifar100データセットおよび混合データセットにおける実験結果から,本手法は,最先端手法の約25～33パーセントの大きさのモデルを用いて,より小さなモデルで高い精度を実現できることが実証された。

関連論文リスト

Uni-DocDiff: A Unified Document Restoration Model Based on Diffusion [7.1593100791258335]
拡散に基づく統一かつ高度にスケーラブルな文書復元モデルであるUni-DocDiffを提案する。 Uni-DocDiffは学習可能なタスクプロンプト設計を開発し、多様なタスクにまたがる優れたスケーラビリティを保証する。 textbfPrior textbfPoolは、ローカルな高周波特徴とグローバルな低周波特徴を組み合わせた、シンプルで包括的なメカニズムである。
論文参考訳（メタデータ） (2025-08-06T03:30:39Z)
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文参考訳（メタデータ） (2025-01-02T12:45:21Z)
Cross-Domain Content Generation with Domain-Specific Small Language Models [3.2772349789781616]
そこで本研究では,2つのドメインに対して,コーヒーレントかつ関連する出力を生成するための小言語モデルを提案する。それぞれのデータセットに合わせてカスタマイズされたカスタムトークン化ツールを利用することで、生成品質が大幅に向上することがわかった。凍結層による知識拡張は,小言語モデルがドメイン固有のコンテンツを生成するのに有効な方法であることを示す。
論文参考訳（メタデータ） (2024-09-19T21:45:13Z)
Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models [83.02797560769285]
Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、元のデータにアクセスせずに知識を抽出することを目的としている。現在の手法は、事前訓練されたモデル間の不均一性を見落とし、タスクの衝突による性能低下につながることが多い。課題群規則化(Task Groupings Regularization)は、矛盾するタスクをグループ化し整合させることにより、モデルの不均一性から恩恵を受ける新しいアプローチである。
論文参考訳（メタデータ） (2024-05-26T13:11:55Z)
Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文参考訳（メタデータ） (2024-02-01T08:58:57Z)
Model Breadcrumbs: Scaling Multi-Task Model Merging with Sparse Masks [12.146530928616386]
目標問題に対する一般的なアプローチは、特定の目標タスクに対して、訓練済みの基礎モデルを微調整することである。この研究は、補助的なタスクのスペクトルから導かれた同じ基礎モデルの複数の微調整をマージする問題に焦点を当てる。事前学習したモデルの重み空間内でモデル適応を誘導する疎定義の重み集合からなる,新しい簡易な方法であるモデルブレッドクラブを導入する。
論文参考訳（メタデータ） (2023-12-11T19:10:55Z)
Concrete Subspace Learning based Interference Elimination for Multi-task Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文参考訳（メタデータ） (2023-12-11T07:24:54Z)
Efficient Expansion and Gradient Based Task Inference for Replay Free Incremental Learning [5.760774528950479]
最近の拡張ベースモデルはタスクインクリメンタルラーニング(TIL)に有望な結果を示しているクラスインクリメンタルラーニング(CIL)では、タスクIDの予測が重要な課題である。擬似ラベルを用いたエントロピー重み付きデータ拡張とモデル勾配を利用する頑健なタスク予測手法を提案する。
論文参考訳（メタデータ） (2023-12-02T17:28:52Z)
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文参考訳（メタデータ） (2023-06-29T17:59:57Z)
ZipIt! Merging Models from Different Tasks without Training [20.2479633507354]
ZipIt!」は、同じアーキテクチャの2つの任意のモデルをマージする一般的な方法である。これら2つの変更が組み合わさって、以前の作業よりも20～60%改善されていることが分かりました。
論文参考訳（メタデータ） (2023-05-04T17:59:58Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。単一モデルのトレーニング中に、このマッチングプロセスを最適化する。 13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文参考訳（メタデータ） (2022-12-15T18:59:52Z)
Shared and Private VAEs with Generative Replay for Continual Learning [1.90365714903665]
継続的学習は、学習済みのタスクを忘れずに新しいタスクを学習しようとする。既存のartificial neural network (ann)モデルのほとんどは失敗するが、人間は生涯にわたって過去の作品を思い出して同じことをする。我々は,MNIST,Permuted MNIST(QMNIST),CIFAR100,MiniImageNetデータセットなどの視覚的連続学習ベンチマークにおいて,このハイブリッドモデルの有効性を示す。
論文参考訳（メタデータ） (2021-05-17T06:18:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。