論文の概要: DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion
- arxiv url: http://arxiv.org/abs/2111.11326v1
- Date: Mon, 22 Nov 2021 16:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 19:22:57.305493
- Title: DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion
- Title(参考訳): DyTox: Dynamic Token eXpansionを用いた連続学習用変換器
- Authors: Arthur Douillard, Alexandre Ram\'e, Guillaume Couairon, Matthieu Cord
- Abstract要約: 本稿では,専用エンコーダ/デコーダフレームワークに基づくトランスフォーマアーキテクチャを提案する。
特別なトークンを動的に拡張することで、タスク分布上でデコーダネットワークの各前方を特殊化する。
私たちの戦略は、無視可能なメモリと時間オーバーヘッドを抱えながら、多数のタスクにスケールします。
- 参考スコア(独自算出の注目度): 89.92242000948026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep network architectures struggle to continually learn new tasks without
forgetting the previous tasks. A recent trend indicates that dynamic
architectures based on an expansion of the parameters can reduce catastrophic
forgetting efficiently in continual learning. However, existing approaches
often require a task identifier at test-time, need complex tuning to balance
the growing number of parameters, and barely share any information across
tasks. As a result, they struggle to scale to a large number of tasks without
significant overhead. In this paper, we propose a transformer architecture
based on a dedicated encoder/decoder framework. Critically, the encoder and
decoder are shared among all tasks. Through a dynamic expansion of special
tokens, we specialize each forward of our decoder network on a task
distribution. Our strategy scales to a large number of tasks while having
negligible memory and time overheads due to strict control of the parameters
expansion. Moreover, this efficient strategy doesn't need any hyperparameter
tuning to control the network's expansion. Our model reaches excellent results
on CIFAR100 and state-of-the-art performances on the large-scale ImageNet100
and ImageNet1000 while having less parameters than concurrent dynamic
frameworks.
- Abstract(参考訳): ディープネットワークアーキテクチャは、以前のタスクを忘れずに、新しいタスクを継続的に学習する。
最近の傾向は、パラメータの拡張に基づく動的アーキテクチャは、継続的な学習において壊滅的な忘れを効果的に減らすことができることを示している。
しかし、既存のアプローチでは、テスト時にタスク識別子を必要とし、増加するパラメータ数のバランスをとるために複雑なチューニングを必要とし、タスク間で情報を共有することはほとんどありません。
その結果、大きなオーバーヘッドを伴わずに、大量のタスクにスケールするのに苦労した。
本稿では,専用エンコーダ/デコーダフレームワークに基づくトランスフォーマアーキテクチャを提案する。
批判的に、エンコーダとデコーダはすべてのタスクで共有される。
特別なトークンを動的に拡張することで、タスク分布上でデコーダネットワークの各前方を特殊化する。
我々の戦略は、パラメータ拡張の厳格な制御により、無視可能なメモリと時間オーバーヘッドを抱えながら、多数のタスクにスケールする。
さらに、この効率的な戦略は、ネットワークの拡張を制御するためにハイパーパラメータチューニングを必要としない。
CIFAR100と大規模 ImageNet100 と ImageNet1000 のパフォーマンスは,並列動的フレームワークよりもパラメータが少なく,優れた結果を得た。
関連論文リスト
- AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - Multi-task neural networks by learned contextual inputs [0.0]
完全に共有されたニューラルネットワークと、トレーニング可能なタスクパラメータを含む拡張入力ベクトルに基づくマルチタスク学習アーキテクチャである。
このアーキテクチャは、低次元のタスクパラメータ空間を促進する強力なタスク機構によって興味深い。
アーキテクチャのパフォーマンスは、10つのデータセット上の類似のニューラルネットワークアーキテクチャと比較される。
論文 参考訳(メタデータ) (2023-03-01T19:25:52Z) - PAD-Net: An Efficient Framework for Dynamic Networks [72.85480289152719]
動的ネットワークを実装する際の一般的な実践は、与えられた静的レイヤを完全な動的レイヤに変換することである。
我々は、冗長な動的パラメータを静的なパラメータに変換するために、部分的に動的ネットワーク、すなわちPAD-Netを提案する。
提案手法は,2つの典型的な動的アーキテクチャを用いた大規模実験によって包括的に支持されている。
論文 参考訳(メタデータ) (2022-11-10T12:42:43Z) - DiSparse: Disentangled Sparsification for Multitask Model Compression [92.84435347164435]
DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。
実験の結果,様々な設定や設定において優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-09T17:57:46Z) - Efficient Retrieval Optimized Multi-task Learning [16.189136169520424]
本稿では,自己指導型タスク,知識検索,抽出質問応答を共同で訓練するための新しい検索最適化マルチタスク(ROM)フレームワークを提案する。
我々のROMアプローチは、複数のタスクに効率的にスケーリングできる統一的で一般化可能なフレームワークを提供する。
当社のフレームワークでは,近年のQAメソッドよりも同等あるいは優れたパフォーマンスを実現していますが,パラメータの数を大幅に削減しています。
論文 参考訳(メタデータ) (2021-04-20T17:16:34Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - MSCFNet: A Lightweight Network With Multi-Scale Context Fusion for
Real-Time Semantic Segmentation [27.232578592161673]
マルチスケールコンテキスト融合スキーム(MSCFNet)を用いた新しい軽量ネットワークを考案する。
提案されたMSCFNetは1.15Mパラメータのみを含み、71.9%のMean IoUを実現し、1つのTitan XP GPU構成で50 FPS以上で実行できる。
論文 参考訳(メタデータ) (2021-03-24T08:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。